IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカミノルタ株式会社の特許一覧

特許7067672画像処理システム、画像処理プログラム、および画像処理方法
<>
  • 特許-画像処理システム、画像処理プログラム、および画像処理方法 図1
  • 特許-画像処理システム、画像処理プログラム、および画像処理方法 図2
  • 特許-画像処理システム、画像処理プログラム、および画像処理方法 図3
  • 特許-画像処理システム、画像処理プログラム、および画像処理方法 図4
  • 特許-画像処理システム、画像処理プログラム、および画像処理方法 図5
  • 特許-画像処理システム、画像処理プログラム、および画像処理方法 図6
  • 特許-画像処理システム、画像処理プログラム、および画像処理方法 図7
  • 特許-画像処理システム、画像処理プログラム、および画像処理方法 図8
  • 特許-画像処理システム、画像処理プログラム、および画像処理方法 図9
  • 特許-画像処理システム、画像処理プログラム、および画像処理方法 図10
  • 特許-画像処理システム、画像処理プログラム、および画像処理方法 図11
  • 特許-画像処理システム、画像処理プログラム、および画像処理方法 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-06
(45)【発行日】2022-05-16
(54)【発明の名称】画像処理システム、画像処理プログラム、および画像処理方法
(51)【国際特許分類】
   G06T 7/70 20170101AFI20220509BHJP
   G06T 7/00 20170101ALI20220509BHJP
   G06T 7/20 20170101ALI20220509BHJP
   A61G 7/043 20060101ALN20220509BHJP
【FI】
G06T7/70
G06T7/00 660B
G06T7/00 350C
G06T7/20 300Z
A61G7/043
【請求項の数】 9
(21)【出願番号】P 2021522674
(86)(22)【出願日】2020-04-06
(86)【国際出願番号】 JP2020015551
(87)【国際公開番号】W WO2020241057
(87)【国際公開日】2020-12-03
【審査請求日】2021-12-08
(31)【優先権主張番号】P 2019100699
(32)【優先日】2019-05-29
(33)【優先権主張国・地域又は機関】JP
【早期審査対象出願】
(73)【特許権者】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110000671
【氏名又は名称】八田国際特許業務法人
(72)【発明者】
【氏名】岡▲崎▼ 智也
(72)【発明者】
【氏名】田中 希武
(72)【発明者】
【氏名】池田 直樹
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2017-97577(JP,A)
【文献】特開2017-49676(JP,A)
【文献】特開2015-79339(JP,A)
【文献】特開2002-218449(JP,A)
【文献】米国特許出願公開第2018/0342081(US,A1)
【文献】国際公開第2019/016879(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/70
G06T 7/00
G06T 7/20
A61G 7/043
(57)【特許請求の範囲】
【請求項1】
所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する画像取得部と、
前記画像から人物領域を検出する人物領域検出部と、
前記設置位置の、所定位置からの高さの情報を取得する情報取得部と、
人物の姿勢を推定するための学習により得られた学習済みモデルと、を有し、
前記人物領域又は前記人物領域から推定される人の体に関する特徴点に対し、前記高さの情報を用いた補正を含む処理をし、得られたデータに基づいて、前記学習済みモデルを用いて、人物の姿勢を推定する姿勢推定部と、
を有する画像処理システム。
【請求項2】
前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する補正部をさらに有し、
前記学習済みモデルは、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習され、前記姿勢推定部は、前記補正部により補正された前記人物領域に基づいて人物の姿勢を推定する、
請求項1に記載の画像処理システム。
【請求項3】
前記人物領域から、人の体に関する特徴点を推定する特徴点推定部と、
前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する補正部をさらに有し、
前記学習済みモデルは、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習され、前記姿勢推定部は、前記補正部により補正された前記特徴点に基づいて人物の姿勢を推定する、
請求項1に記載の画像処理システム。
【請求項4】
所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する手順(a)と、
前記画像から人物領域を検出する手順(b)と、
前記設置位置の、所定位置からの高さの情報を取得する手順(c)と、
前記人物領域又は前記人物領域から推定される人の体に関する特徴点に対し、前記高さの情報を用いた補正を含む処理をし、得られたデータに基づいて、人物の姿勢を推定するための学習により得られた学習済みモデルを用いて、人物の姿勢を推定する手順(d)と、
を有する処理を、コンピューターに実行させるための画像処理プログラム。
【請求項5】
前記処理は、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する手順(e)をさらに有し、
前記手順(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記手順(e)において補正された前記人物領域に基づいて人物の姿勢を推定する、
請求項4に記載の画像処理プログラム。
【請求項6】
前記処理は、前記人物領域から、人の体に関する特徴点を推定する手順(f)と、
前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する手順(g)と、をさらに有し、
前記手順(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記手順(g)において補正された前記特徴点に基づいて人物の姿勢を推定する、
請求項4に記載の画像処理プログラム。
【請求項7】
画像処理システムによる画像処理方法であって、
所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する段階(a)と、
前記画像から人物領域を検出する段階(b)と、
前記設置位置の、所定位置からの高さの情報を取得する段階(c)と、
前記人物領域又は前記人物領域から推定される人の体に関する特徴点に対し、前記高さの情報を用いた補正を含む処理をし、得られたデータに基づいて、人物の姿勢を推定するための学習により得られた学習済みモデルを用いて、人物の姿勢を推定する段階(d)と、
を有する画像処理方法。
【請求項8】
前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する段階(e)をさらに有し、
前記段階(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記段階(e)において補正された前記人物領域に基づいて人物の姿勢を推定する、
請求項7に記載の画像処理方法。
【請求項9】
前記人物領域から、人の体に関する特徴点を推定する段階(f)と、
前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する段階(g)と、をさらに有し、
前記段階(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記段階(g)において補正された前記特徴点に基づいて人物の姿勢を推定する、
請求項7に記載の画像処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理システム、画像処理プログラム、および画像処理方法に関する。
【背景技術】
【0002】
我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢などにより、介護等の対応を必要とする要介護者等の増加が想定される。
【0003】
要介護者等は、病院や老人福祉施設などの施設において、歩行中に転倒したり、ベッドから転落して怪我をするおそれがある。そのため、要介護者等がこのような状態になったときに介護士や看護師等のスタッフがすぐに駆けつけられるようにするために、撮影画像から要介護者等の状態を検出するためのシステムの開発が進められている。このようなシステムで要介護者等の状態を検出するためには、撮影された画像から検知対象である人物の姿勢等を高精度で検出する必要がある。
【0004】
しかし、特に魚眼レンズカメラのような広角レンズのカメラで撮影された全方位画像においては、レンズの歪み特性により、同じ人物であっても、人物の位置に応じて、画像内の人物の見え方が変化するという特徴をもつ。
【0005】
全方位画像等の画像から人物の姿勢を検出する技術としては、下記特許文献1および2に開示されたものがある。
【0006】
特許文献1には、人の個人IDと、画像における直立時の頭の大きさとを関連付けて登録しておき、画像における人の頭の像の大きさを検出し、検出された頭の像の大きさに基づいて人の姿勢を判別する技術が開示されている。特許文献2には、画像から人を含む人領域を検出し、人領域の画像と姿勢との組み合わせの教師データにより予め学習されたニューラルネットワーク等により、人領域の画像に基づいて人の姿勢を推定する技術が開示されている。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2015-158952号公報
【文献】特開2018-206321号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかし、特許文献1の技術は、画像上の頭の像の大きさに基づいて人物の姿勢を判別するに過ぎないため、高精度に姿勢を推定できないという問題がある。特許文献2の技術は、画像を撮影する撮影装置の設置場所の変更等により撮影装置の高さが変動した場合に、画像に基づく人物の姿勢の推定精度が低下するという問題がある。
【0009】
本発明は、このような問題を解決するためになされたものである。すなわち、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できる画像処理システム、画像処理プログラム、および画像処理方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明の上記課題は、以下の手段によって解決される。
【0011】
(1)所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する画像取得部と、前記画像から人物領域を検出する人物領域検出部と、前記設置位置の、所定位置からの高さの情報を取得する情報取得部と、人物の姿勢を推定するための学習により得られた学習済みモデルと、を有し、前記人物領域又は前記人物領域から推定される人の体に関する特徴点に対し、前記高さの情報を用いた補正を含む処理をし、得られたデータに基づいて、前記学習済みモデルを用いて、人物の姿勢を推定する姿勢推定部と、を有する画像処理システム。
【0012】
(2)前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する補正部をさらに有し、前記学習済みモデルは、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習され、前記姿勢推定部は、前記補正部により補正された前記人物領域に基づいて人物の姿勢を推定する、上記(1)に記載の画像処理システム。
【0013】
(3)前記人物領域から、人の体に関する特徴点を推定する特徴点推定部と、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する補正部をさらに有し、前記学習済みモデルは、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習され、前記姿勢推定部は、前記補正部により補正された前記特徴点に基づいて人物の姿勢を推定する、上記(1)に記載の画像処理システム。
【0014】
(4)所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する手順(a)と、前記画像から人物領域を検出する手順(b)と、前記設置位置の、所定位置からの高さの情報を取得する手順(c)と、前記人物領域又は前記人物領域から推定される人の体に関する特徴点に対し、前記高さの情報を用いた補正を含む処理をし、得られたデータに基づいて、人物の姿勢を推定するための学習により得られた学習済みモデルを用いて、人物の姿勢を推定する手順(d)と、を有する処理を、コンピューターに実行させるための画像処理プログラム。
【0015】
(5)前記処理は、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する手順(e)をさらに有し、前記手順(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記手順(e)において補正された前記人物領域に基づいて人物の姿勢を推定する、上記(4)に記載の画像処理プログラム。
【0016】
(6)前記処理は、前記人物領域から、人の体に関する特徴点を推定する手順(f)と、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する手順(g)と、をさらに有し、前記手順(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記手順(g)において補正された前記特徴点に基づいて人物の姿勢を推定する、上記(4)に記載の画像処理プログラム。
【0017】
(7)画像処理システムによる画像処理方法であって、所定の撮影領域を俯瞰する設置位置に設置された撮影装置により、前記撮影領域全体が撮影された画像を取得する段階(a)と、前記画像から人物領域を検出する段階(b)と、前記設置位置の、所定位置からの高さの情報を取得する段階(c)と、前記人物領域又は前記人物領域から推定される人の体に関する特徴点に対し、前記高さの情報を用いた補正を含む処理をし、得られたデータに基づいて、および人物の姿勢を推定するための学習により得られた学習済みモデルを用いて、人物の姿勢を推定する段階(d)と、を有する画像処理方法。
【0018】
(8)前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記人物領域を補正する段階(e)をさらに有し、前記段階(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記段階(e)において補正された前記人物領域に基づいて人物の姿勢を推定する、上記(7)に記載の画像処理方法。
【0019】
(9)前記人物領域から、人の体に関する特徴点を推定する段階(f)と、前記所定位置からの高さが予め設定した基準高さである場合に合わせて、前記高さの情報に基づいて、前記特徴点を補正する段階(g)と、をさらに有し、前記段階(d)では、前記基準高さに設置された前記撮影装置で撮影された前記画像から検出された前記人物領域から推定された前記特徴点と、前記人物の姿勢との組合せを教師データとして予め学習された学習済みモデルにより、前記段階(g)において補正された前記特徴点に基づいて人物の姿勢を推定する、上記(7)に記載の画像処理方法。
【発明の効果】
【0020】
所定の撮影領域を俯瞰する設置位置に設置された撮影装置で撮影された撮影領域全体の画像から人物領域を検出し、撮影装置が設置された高さの情報と、人物領域とに基づいて、機械学習により人物の姿勢を推定する。これにより、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できる。
【図面の簡単な説明】
【0021】
図1】実施形態に係る画像認識装置を含む画像認識システムの概略構成を示す図である。
図2】画像認識装置のハードウェア構成を示すブロック図である。
図3】画像認識装置の制御部の機能を示すブロック図である。
図4】画像において検出された人物領域を示す図である。
図5】特徴点を示す説明図である。
図6】補正部による特徴点の補正について説明するための説明図である。
図7】補正前後の特徴点を画像上で説明するための説明図である。
図8】画像認識装置の動作を示すフローチャートである。
図9】画像認識装置の制御部の機能を示すブロック図である。
図10】画像認識装置の動作を示すフローチャートである。
図11】画像認識装置の制御部の機能を示すブロック図である。
図12】画像認識装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0022】
以下、図面を参照して、本発明の実施形態に係る、画像処理システム、画像処理プログラム、および画像処理方法について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【0023】
(第1実施形態)
図1は、実施形態に係る画像認識装置100を含む画像認識システム10の概略構成を示す図である。
【0024】
画像認識システム10は、画像認識装置100、撮影装置200、通信ネットワーク300、および携帯端末400を有する。画像認識装置100は、通信ネットワーク300により撮影装置200および携帯端末400と相互に通信可能に接続される。
【0025】
画像認識装置100は、撮影装置200により撮影された画像(以下、単に「画像600」とも称する(図4等参照))を、撮影装置200から受信し、画像600から人物である対象者500を含む領域を人物領域610として検出する。画像認識装置100は、画像600上で物体(オブジェクト)が存在する領域を検出し、検出した領域に含まれる物体のカテゴリーを推定することで、人物領域610を検出し得る。物体が存在する領域は、画像600上で物体が含まれる矩形(候補矩形)として検出される。画像認識装置100は、検出された候補矩形のうち、物体のカテゴリーが人物であると推定された候補矩形を検出することで、人物領域610を検出する。画像認識装置100は、人物領域610に基づいて、対象者500の姿勢または行動を検出する。姿勢には、立位、中腰、座位、臥位、しゃがみ込み、および座り込みが含まれる。行動には、起床、離床、転倒、および転落が含まれる。後述するように、人物領域610は、撮影装置200の設置位置の高さが予め設定した基準高さである場合に合わせて、撮影装置200の設置位置の高さに基づいて、補正される。また、推定した姿勢または行動から、対象者500に関するイベントを検出し得る。イベントとは、対象者500に関し、画像認識装置100等が認識した状態の変化であって、例えば、起床、離床、転倒、および転落等のスタッフ80に発報(報知)を行うべき事象である。画像認識装置100は、イベントを検出した場合は、イベントの内容を通知するイベント通知を携帯端末400へ送信する。画像認識装置100は、ニューラルネットワーク(以下、「NN」と称する)により、対象者500を画像600上の人物領域610として検出し得る。NNによる対象物体の検出方法としては、例えば、Faster R-CNN、Fast R-CNN、およびR-CNNといった公知の方法が挙げられる。画像認識装置100は、コンピューターにより構成される。画像認識装置100は、例えば、サーバーにより構成され得る。
【0026】
撮影装置200は、例えば、近赤外線カメラにより構成され、所定の撮影領域を俯瞰する設置位置に設置され、撮影領域全体を撮影する。撮影装置200の設置位置は、例えば対象者500の居室の天井である。所定の撮影領域は、例えば、居室の床面全体を含む3次元の領域である。以下、撮影装置200は対象者500の居室の天井に設置されるものとして説明する。撮影装置200は、LED(Light Emitting Device)により近赤外線を撮影領域に向けて照射し、撮影領域内の物体により反射される近赤外線の反射光をCMOS(Complememtary Metal Oxide Semiconductor)センサーにより受光することで撮影領域を撮影し得る。画像600は近赤外線の反射率を各画素とするモノクロ画像であり得る。
【0027】
撮影装置200は、たとえば15fps~30fpsのフレームレートの動画として撮影領域を撮影し得る。画像600には動画と静止画とが含まれる。撮影装置200は、画像600を画像認識装置100等に送信する。
【0028】
撮影装置200は、コンピューターを有するセンサーボックスにより構成し得る。センサーボックスとは、近赤外線カメラおよび体動センサー等を備える装置である。この場合、画像600が、センサーボックスから画像認識装置100へ送信される。なお、画像認識装置100の機能の一部または全部をセンサーボックスが有するようにしてもよい。体動センサーは、ベッドに対してマイクロ波を送受信して対象者500の体動(例えば呼吸動)によって生じたマイクロ波のドップラシフトを検出するドップラシフト方式のセンサーである。
【0029】
通信ネットワーク300には、イーサネット(登録商標)などの有線通信規格によるネットワークインターフェースを使用し得る。通信ネットワーク300には、Bluetooth(登録商標)、IEEE802.11などの無線通信規格によるネットワークインターフェースを使用してもよい。通信ネットワーク300には、アクセスポイント310が設けられ、携帯端末400と、画像認識装置100および撮影装置200とを無線通信ネットワークにより通信可能に接続する。
【0030】
携帯端末400は、画像認識装置100からイベント通知を受信し、イベント通知の内容を表示する。イベント通知には、起床、離床、転倒、および転落の検出結果の他、微体動異常等の検出結果が含まれ得る。携帯端末400は、撮影装置200または画像認識装置100から画像600を受信して表示し得る。携帯端末400は、たとえばスマートフォンにより構成される。
【0031】
図2は、画像認識装置100のハードウェア構成を示すブロック図である。画像認識装置100は、制御部110、記憶部120、表示部130、入力部140、および通信部150を有する。これらの構成要素は、バス160を介して相互に接続される。
【0032】
制御部110は、CPU(Central Processing Unit)により構成され、プログラムに従って画像認識装置100の各部の制御および演算処理を行う。制御部110の機能の詳細については後述する。
【0033】
記憶部120は、RAM(Random Access Memory)、ROM(Read Only Memory)、およびSSD(Solid State Drive)により構成され得る。RAMは、制御部110の作業領域として一時的にプログラムやデータを記憶する。ROMは、あらかじめ各種プログラムや各種データを格納する。SSDは、オペレーションシステムを含む各種プログラムおよび各種データを格納する。
【0034】
表示部130は、たとえば液晶ディスプレイであり、各種情報を表示する。
【0035】
入力部140は、たとえばタッチパネルや各種キーにより構成される。入力部140は、各種操作、入力のために使用される。
【0036】
通信部150は、外部機器と通信するためのインターフェースである。通信には、イーサネット(登録商標)、SATA、PCI Express、USB、IEEE1394などの規格によるネットワークインターフェースが用いられ得る。その他、通信には、Bluetooth(登録商標)、IEEE802.11、4G等の無線通信インターフェースが用いられ得る。通信部150は、撮影装置200から画像600を受信する。通信部150は、イベント通知を携帯端末400へ送信する。
【0037】
制御部110の機能の詳細について説明する。
【0038】
図3は、画像認識装置100の制御部110の機能を示すブロック図である。制御部110は、画像取得部111、人物領域検出部112、特徴点推定部113、高さ情報取得部114、補正部115、および姿勢推定部116を含む。高さ情報取得部114は情報取得部を構成する。
【0039】
画像取得部111は、通信部150により撮影装置200から受信した画像600を取得する。
【0040】
人物領域検出部112はNNにより構成される。NNには、人物領域を検出するための学習により得られた人物領域検出パラメーターが反映されている。人物領域検出部112は、画像600に基づく畳み込み演算により、画素の特徴が抽出された特徴マップを生成する。人物領域検出部112は、特徴マップから、画像600上で物体が存在する領域を候補矩形として検出する。人物領域検出部112は、Faster R-CNN等のNNを用いた公知の技術により候補矩形を検出し得る。人物領域検出部112は、各候補矩形について、所定のカテゴリーごとの信頼度スコアを算出する。すなわち、人物領域検出部112は、人物を含む所定のカテゴリーに関する信頼度スコアを算出する。信頼度スコアは、所定のカテゴリーごとの尤度である。人物領域検出部112は、Faster R-CNN等のNNを用いた公知の技術により信頼度スコアを算出し得る。所定のカテゴリーは、例えば、人物、椅子、および機具とし得る。人物領域検出部112は、信頼度スコアが最も高いカテゴリーが人物である候補矩形をそれぞれ人物領域610として検出する。なお、1つの候補矩形に対し、所定のカテゴリーことにそれぞれ算出された信頼度スコアの和は1となる。
【0041】
人物領域検出部112は、画像600と、当該画像600に対する正解として設定された人物領域610との組合せの教師データを用いて、画像600から人物領域610を推定するための学習が予めされている。これにより、人物領域検出部112には、上述した人物領域検出パラメーターが反映されている。
【0042】
図4は、画像600において検出された人物領域610を示す図である。
【0043】
図4の例においては、人物領域610が、人物である対象者500を囲む矩形の領域として検出されている。この場合、人物領域610は、画像600における人物領域610の矩形の対頂点のいずれかの組をなす2つの点の座標として画像600とともに出力され得る。
【0044】
特徴点推定部113はNNにより構成される。NNには、人の体に関する特徴点620(以下、単に「特徴点620」とも称する)を推定するための学習により得られた特徴点推定パラメーターが反映されている。特徴点推定部113は、人物領域610に基づいて、特徴点620を推定する。特徴点620には、関節点621、および頭部矩形623の対頂点622が含まれ得る。頭部矩形623は、人物の頭部を含む矩形の領域である。特徴点推定部113は、DeepPose等のNNを用いた公知の技術により特徴点620を推定し得る。DeepPoseについては、公知の文献(Alexander Toshev, et al. “DeepPose: Human Pose Estimation via Deep Neural Networks”, in CVPR, 2014)に詳細が記載されている。
【0045】
図5は、特徴点620を示す説明図である。図5には、人物領域610(より詳しくは、人物領域610の枠)も併せて示されている。
【0046】
図5の例において、白い丸はそれぞれ関節点621を示し、グレーの丸はそれぞれ頭部矩形623の対頂点622を示している。
【0047】
特徴点推定部113は、人物領域610と、当該人物領域610に対する正解として設定された特徴点620との組合せの教師データを用いて、人物領域610から特徴点620を推定するための学習が予めされている。これにより、特徴点推定部113には、上述した特徴点推定パラメーターが反映されている。
【0048】
高さ情報取得部114は、例えば、ユーザーにより入力部140において入力された、撮影装置200の設置位置の、所定位置からの高さの情報を取得する。以下、撮影装置200の設置位置の所定位置からの高さを「撮影装置200の高さ」と、所定位置からの高さの情報を単に「高さ情報」ともそれぞれ称する。所定位置は任意かつ一定の位置であり、例えば、床面の位置とし得る。
【0049】
補正部115は、撮影装置200の高さが予め設定された基準高さである場合に合わせて、高さ情報に基づいて、特徴点620(より詳細には、画像600における特徴点620の座標)を補正する。
【0050】
図6は、補正部115による特徴点620の補正について説明するための説明図である。
【0051】
図6において、撮影装置200Aは、基準高さである、床面から240cmの設置位置に設置されている。撮影装置200Bは、基準高さより高い、床面から270cmの設置位置に設置されている。撮影装置200Aと撮影装置200Bとで、床面上で固定された同じ対象者500を撮影すると、同じ対象者500を撮影しているにもかかわらず、画像600上の対象者500の大きさが異なる。具体的には、床面から270cmの高さの撮影装置200Bにより撮影された画像600上の対象者500の方が、床面から240cmの高さの撮影装置200Aにより撮影された画像600上の対象者500よりも小さくなる。このような、撮影装置200の高さが変化することによる画像600上の対象者500の大きさの変動は、後述する、姿勢推定部116による、特徴点620に基づく対象者500の姿勢の推定精度を低下させ得る。このような姿勢の推定精度の低下は、様々な高さの撮影装置200で撮影された画像600から推定された特徴点620と、当該特徴点620に対する正解として設定された姿勢との組合せの教師データを用いて姿勢推定部116を学習させることで防止できる。しかし、姿勢の推定精度を維持するために必要な教師データの量が増大する。そこで、撮影装置200の高さが変動しても、必要な教師データの量を増大させずに、高精度な姿勢推定を実現するために、特徴点620を補正する。具体的には、特徴点620を、基準高さの撮影装置200により撮影された場合に合わせて補正する。すなわち、各特徴点620相互の距離および位置の相対的関係が、撮影装置200が基準高さに設置された場合の各特徴点620相互の距離および位置の相対的関係となるように、特徴点620を補正する。
【0052】
図6に示すように、床面に対する基準画像平面の高さは、αcmである。従って、基準画像平面と撮影装置200Aとの距離は(240-α)cmであり、基準画像平面と撮影装置200Bとの距離は(270-α)cmである。そうすると、基準画像平面上のものが画像600に映る長さの、撮影装置200Aによる画像600と、撮影装置200Bによる画像600との比は、(240-α)と(270-α)との比になる。そこで、撮影装置200Bにより撮影された画像600から推定された特徴点620の、画像600上の画像600の中心からの距離Lが、下記式による補正後の距離L’となるように、当該特徴点620の、当該画像600上の座標を補正する。基準画像平面の高さは、姿勢推定精度の観点から実験により適当な一定の値に設定し得る。
【0053】
L’=L×(270-α)/(240-α)
図7は、補正前後の特徴点620を画像600上で説明するための説明図である。
【0054】
図7において、画像600の中心が黒い点で示されており、特徴点620が白抜きの丸で示されている。画像600の中心との距離がLである特徴点620が補正前の特徴点である。画像600の中心との距離がL’である特徴点620が補正後の特徴点である。図7に示すように、特徴点620は、画像600の中心に対する特徴点620の方向は変えずに、画像600の中心との距離を上記式により変更することで、その座標が補正される。
【0055】
姿勢推定部116は、NNにより構成される。NNには、人物の姿勢を推定するための学習により得られた姿勢推定パラメーターが反映されている。姿勢推定部116は、補正後の特徴点620に基づいて、対象者500の姿勢を推定する。
【0056】
姿勢推定部116は、特徴点620と、当該特徴点620に対する正解として設定された姿勢との組合せを教師データとして、特徴点620から姿勢を推定するための学習が予めされている。これにより、姿勢推定部116には、上述した姿勢推定パラメーターが反映されている。教師データとして用いられる特徴点620等は、基準高さに設置された撮影装置200により撮影された画像600から検出されたもののみでよい。すなわち、姿勢推定しようとする画像600が撮影された撮影装置200が基準高さ以外の高さに設置されていても、当該基準高さと異なる高さに設置された撮影装置200により撮影された画像600から検出された特徴点620等の教師データを新たに用意する必要はない。
【0057】
画像認識装置100の動作について説明する。
【0058】
図8は、画像認識装置100の動作を示すフローチャートである。本フローチャートは、記憶部120に記憶されたプログラムに従い、制御部110により実行される。
【0059】
画像取得部111は、撮影装置200から画像600を、通信部150を介して受信することで取得する(S101)。
【0060】
人物領域検出部112は、画像600から人物領域610を検出する(S102)。
【0061】
特徴点推定部113は、人物領域610から特徴点620を推定する(S103)。
【0062】
補正部115は、撮影装置200の高さ情報に基づいて、撮影装置200が基準高さに設置されたと仮定された場合に合わせて、特徴点620を補正する(S104)。
【0063】
姿勢推定部116は、補正後の特徴点620に基づいて、対象者500の姿勢を推定する(S105)。
【0064】
本実施形態は以下の効果を奏する。
【0065】
所定の撮影領域を俯瞰する設置位置に設置された撮影装置で撮影された撮影領域全体の画像から人物領域を検出し、人物領域から特徴点を推定し、撮影装置の高さが基準高さである場合に合わせて特徴点を補正し、補正後の特徴点に基づいて、機械学習により人物の姿勢を推定する。これにより、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できるとともに、撮影装置の設置高さの変化に起因する、機械学習による姿勢推定精度の低下を防止するために必要な、機械学習に用いる教師データを削減できる。
【0066】
(第2実施形態)
本発明の第2実施形態について説明する。本実施形態と第1実施形態とで異なる点は次の点である。第1実施形態は、人物領域610から推定された特徴点620を高さ情報に基づいて補正し、補正後の特徴点620に基づいて姿勢を推定する。一方、本実施形態は、人物領域610を高さ情報に基づいて補正し、補正後の人物領域610に基づいて姿勢を推定する。その他の点については、本実施形態は第1実施形態と同様であるため、重複する説明は省略または簡略化する。
【0067】
図9は、画像認識装置100の制御部110の機能を示すブロック図である。制御部110は、画像取得部111、人物領域検出部112、高さ情報取得部114、補正部115、および姿勢推定部116を含む。
【0068】
補正部115は、撮影装置200の高さが基準高さとされた場合に合わせて、高さ情報に基づいて人物領域610を補正する。具体的には、第1実施形態において行った各特徴点620の座標の補正を、人物領域610の各画素について行う。これにより、人物領域の画素の各座標が補正されることで、補正後の人物領域610が算出される。なお、人物領域610が補正されることにより、人物領域610の画素密度が変化し得るが、補正後の人物領域610について、補正前の人物領域610の画素密度に戻す公知の変換がなされ得る。
【0069】
姿勢推定部116は、補正後の人物領域610に基づいて、対象者500の姿勢を推定する。
【0070】
姿勢推定部116は、人物領域610と、当該人物領域610に対する正解として設定された姿勢との組合せを教師データとして、人物領域610から姿勢を推定するための学習が予めされる。教師データとして用いられる人物領域610等は、基準高さに設置された撮影装置200により撮影された画像600から検出されたもののみでよい。すなわち、姿勢推定しようとする画像600が撮影された撮影装置200が基準高さ以外の高さに設置されていても、当該基準高さと異なる高さに設置された撮影装置200により撮影された画像600から検出された人物領域610等の教師データを新たに用意する必要はない。
【0071】
画像認識装置100の動作について説明する。
【0072】
図10は、画像認識装置100の動作を示すフローチャートである。本フローチャートは、記憶部120に記憶されたプログラムに従い、制御部110により実行される。
【0073】
画像取得部111は、撮影装置200から画像600を、通信部150を介して受信することで取得する(S201)。
【0074】
人物領域検出部112は、画像600から対象者500を含む人物領域610を検出する(S202)。
【0075】
補正部115は、撮影装置200が基準高さに設置された場合に合わせて、撮影装置200の高さ情報に基づいて、人物領域610を補正する(S203)。
【0076】
姿勢推定部116は、補正後の人物領域610に基づいて、対象者500の姿勢を推定する(S204)。
【0077】
本実施形態は以下の効果を奏する。
【0078】
所定の撮影領域を俯瞰する設置位置に設置された撮影装置で撮影された撮影領域全体の画像から人物領域を検出し、撮影装置の高さが基準高さである場合に合わせて人物領域を補正し、補正後の人物領域に基づいて、機械学習により人物の姿勢を推定する。これにより、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できるとともに、撮影装置の設置高さの変化に起因する、機械学習による姿勢推定精度の低下を防止するために必要な、機械学習に用いる教師データを削減できる。
【0079】
(第3実施形態)
本発明の第3実施形態について説明する。本実施形態と第1実施形態とで異なる点は次の点である。第1実施形態は、人物領域610から推定された特徴点620を高さ情報に基づいて補正し、補正後の特徴点620に基づいて姿勢を推定する。一方、本実施形態は、特徴点620等の補正はせずに、人物領域610と、高さ情報とに基づいて、機械学習により姿勢を推定する。その他の点については、本実施形態は第1実施形態と同様であるため、重複する説明は省略または簡略化する。
【0080】
図11は、画像認識装置100の制御部110の機能を示すブロック図である。制御部110は、画像取得部111、人物領域検出部112、高さ情報取得部114、および姿勢推定部116を含む。
【0081】
姿勢推定部116は、画像600から検出された人物領域610と、高さ情報とに基づいて、対象者500の姿勢を推定する。
【0082】
姿勢推定部116は、人物領域610および高さ情報と、当該人物領域610および高さ情報の入力に対する正解として設定された姿勢との組合せを教師データとして、人物領域610および高さ情報から姿勢を推定するための学習が予めされる。教師データとして用いられる人物領域610および高さ情報と、当該人物領域610および高さ情報の入力に対する正解として設定された姿勢との組合せは、複数の高さに設置された撮影装置200により撮影された画像600に基づくものを用いる。すなわち、教師データとして、様々な高さに設置された撮影装置200により撮影された画像600に基づいて得られた、人物領域610および高さ情報の入力と、当該人物領域610および高さ情報の入力に対する正解として設定された姿勢の正解ラベルとの組合せを用いる。
【0083】
画像認識装置100の動作について説明する。
【0084】
図12は、画像認識装置100の動作を示すフローチャートである。本フローチャートは、記憶部120に記憶されたプログラムに従い、制御部110により実行される。
【0085】
画像取得部111は、撮影装置200から画像600を、通信部150を介して受信することで取得する(S301)。
【0086】
人物領域検出部112は、画像600から対象者500を含む人物領域610を検出する(S302)。
【0087】
姿勢推定部116は、人物領域610および高さ情報に基づいて、対象者500の姿勢を推定する(S303)。
【0088】
本実施形態は以下の効果を奏する。
【0089】
所定の撮影領域を俯瞰する設置位置に設置された撮影装置で撮影された撮影領域全体の画像から人物領域を検出し、撮影装置が設置された高さの情報と、人物領域とに基づいて、機械学習により人物の姿勢を推定する。これにより、撮影装置の設置高さが変動しても、撮影された画像に基づいて高精度に人物の姿勢を推定できる。
【0090】
以上に説明した画像認識システム10の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な画像認識システムが備える構成を排除するものではない。
【0091】
例えば、上述の実施形態においては、基準高さと基準画像平面の高さは別々に設定している。しかし、基準高さと基準画像平面の高さは同じであってもよい。
【0092】
また、画像認識装置100が有する機能を、センサーボックスにより構成される撮影装置200、または携帯端末400が備えるようにしてもよい。
【0093】
また、画像認識装置100、撮影装置200、および携帯端末400は、それぞれ複数の装置により構成されてもよく、いずれか複数の装置が単一の装置として構成されてもよい。
【0094】
また、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。
【0095】
また、上述した画像認識システム10における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、USBメモリやDVD(Digital Versatile Disc)-ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。
【0096】
本出願は、2019年5月29日に出願された日本特許出願(特願2019-100699号)に基づいており、その開示内容は、参照され、全体として、組み入れられている。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12