IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人名古屋大学の特許一覧

特開2023-102332気づき予測システム及び気づき予測方法
<>
  • 特開-気づき予測システム及び気づき予測方法 図1
  • 特開-気づき予測システム及び気づき予測方法 図2
  • 特開-気づき予測システム及び気づき予測方法 図3
  • 特開-気づき予測システム及び気づき予測方法 図4
  • 特開-気づき予測システム及び気づき予測方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023102332
(43)【公開日】2023-07-25
(54)【発明の名称】気づき予測システム及び気づき予測方法
(51)【国際特許分類】
   G06T 7/20 20170101AFI20230718BHJP
   G06T 7/246 20170101ALI20230718BHJP
   G06T 7/00 20170101ALI20230718BHJP
【FI】
G06T7/20 300Z
G06T7/246
G06T7/00 350C
【審査請求】未請求
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2022002734
(22)【出願日】2022-01-12
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 開催日:令和3年9月3日 掲載アドレス:https://www.ite.or.jp/ken/paper/20210903zAjm/「映像情報メディア学会 研究会サマーセミナー2021:新しい価値を生む,”魅力ある”ビジョン技術」
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 開催日:令和3年11月26日 掲載アドレス名:http://view.tc-iaip.org/view/2021/program_info/ 刊行物名:「Vision Engineering Workshop 2021 ビジョン技術の実利用ワークショップ」講演論文集
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 開催日:令和3年12月3日 掲載アドレス名:http://view.tc-iaip.org/view/2021/program_info/「Vision Engineering Workshop 2021 ビジョン技術の実利用ワークショップ」
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 開催日:令和3年9月3日 発行者名:映像情報メディア学会 刊行物名:「映情学技報」vol.45,No.23,ME2021-80,31-34頁,
(71)【出願人】
【識別番号】504139662
【氏名又は名称】国立大学法人東海国立大学機構
(74)【代理人】
【識別番号】110000659
【氏名又は名称】弁理士法人広江アソシエイツ特許事務所
(72)【発明者】
【氏名】加藤 邦人
(72)【発明者】
【氏名】光岡 陽
(72)【発明者】
【氏名】相澤 宏旭
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA04
5L096DA02
5L096FA62
5L096FA67
5L096FA69
5L096HA05
5L096HA11
5L096JA05
5L096JA11
5L096JA22
5L096KA04
(57)【要約】      (修正有)
【課題】歩行者が対象物に気づいているか否かを予測する気づき予測システム及び気づき予測方法を提供する。
【解決手段】動画を入力し、動画中の歩行者の検出、追跡、および行動認識を行って、歩行者がカメラ方向に気づいているか否かを予測する気づき予測システムであって、画像から、畳み込みニューラルネットワークによって特徴マップを生成するバックボーンネットワークと、バックボーンネットワークから特徴マップを入力し、歩行者の位置と歩行者固有の外観表現と気づきの有無の特徴量を出力する空間的特徴抽出枝部2と、画像毎の特徴量を蓄積して時系列で追跡し、歩行者毎の時系列の特徴量を出力する追跡部と、歩行者毎に時間方向を考慮して気づいているか否かの予測結果を出力する時系列予測部4と、を備えている。
【選択図】図1
【特許請求の範囲】
【請求項1】
カメラで撮影した動画を入力し、動画に記録された歩行者の検出、追跡、および行動認識を行って、歩行者が撮影されていることに気づいているか否かを予測するシステムであって、
動画内の画像から、畳み込みニューラルネットワークによって、歩行者の位置と歩行者固有の外観表現と気づきの有無の特徴量を出力する空間的特徴抽出枝部と、
画像ごとの特徴量を蓄積して時系列で追跡し、歩行者ごとの時系列の特徴量を出力する追跡部と、
前記追跡部が出力した歩行者ごとの時系列の特徴量を入力し、歩行者ごとに時間方向を考慮して気づいているか否かの予測結果を出力する時系列予測部と、
を備えることにより、時系列の画像の入力から行動認識結果の出力までをエンドツーエンドなシステムとして実行することを特徴とする、歩行者の気づき予測システム。
【請求項2】
前記空間的特徴抽出枝部が、
前記画像内の歩行者の中心位置を予測する中心位置予測部と、
教師データと予測の歩行者の中心位置のずれを予測するオフセット部と、
歩行者の大きさを学習するサイズ部と、
歩行者ごとの固有の外観表現を学習し学習結果を追跡に用いるID部と、
歩行者が前記カメラ方向に気づいたか否かを認識する気づき部と、
を備えていることを特徴とする請求項1記載の、歩行者の気づき予測システム。
【請求項3】
カメラで撮影した動画を入力し、動画に記録された歩行者の検出、追跡、および行動認識を行って、歩行者がカメラ方向に気づいているか否かを予測する方法であって、
画像から、畳み込みニューラルネットワークによって特徴マップを生成し、歩行者の検出と追跡を行うステップと、
前記特徴マップを入力し、畳み込みニューラルネットワークによって、歩行者の位置と気づきの有無の特徴量を出力するステップと、
画像ごとの特徴量を蓄積して時系列で追跡し、歩行者ごとの時系列の特徴量を出力するステップと、
歩行者ごとの時系列の特徴量を入力し、歩行者ごとに歩行者が撮影されていることに気づいているか否かの予測結果を出力するステップと、
をエンドツーエンドに実行することを特徴とする、歩行者の気づき予測方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、気づき予測システム及び気づき予測方法に関する。特に、歩行者が車両やカメラ等の存在に気づいたか否かを予測するための、機械学習を適用した気づき予測システム及び気づき予測方法に関する。
【背景技術】
【0002】
自動車の自動運転やロボットの行動決定のためには、周囲の歩行者を識別して適切に対応する必要がある。歩行者の様々な行動を予測して対応する場合、接近してくる自動車やロボットに気づいている歩行者と気づいていない歩行者とでは、その行動に当然差異があり、接近に気づいていない歩行者に対して、より慎重な対応を取ることが好ましい。
【0003】
人間の行動を予測する技術の一分野として、機械学習が適用されている。これまでに、画像を入力データとしてニューラルネットワークを用いた深層学習を行い、画像内から人間を検出し、検出された人間を追跡し、得られた検出結果と追跡結果を用いて行動認識を行う技術が開発されている。
【0004】
画像から人間を含む物体を検出するための、深層学習を用いた技術が開発されている。物体検出では、画像上の対象物の位置を特定し、さらにその対象物のクラス(分類)を予測する。深層学習を用いた物体検出器には、二段階検出器と一段階検出器の二つの種類が知られている。二段階検出器では、ニューラルネットワークであるバックボーンネットワークから得た特徴マップに対して、事前に定義したアンカーと呼ばれる矩形領域に基づいて、物体が存在する領域提案を生成している。そして、後続のヘッドが領域提案を受け取り、細かい位置の回帰とクラス分類を行う。一段階検出器としては、たとえば、非特許文献1に開示されるように、損失関数を改善した物体検出モデルが知られている。また近年では、アンカーに基づかずキーポイントに着目した検出器が用いられ始めている。非特許文献2には、物体の中心位置を学習し、中心位置に物体の大きさ等の情報を埋め込み、その情報から物体検出を行う技術が開示されている。非特許文献3には、物体の左上角と右下角に情報を埋め込み、それらをグループ化する技術が開示されている。このような物体検出器は一段階検出器であり、分類クラスが少ない場合、高速でありながら二段階に匹敵する精度をもつ。そのため、推論速度を考慮しつつ人物のみを検出する場合には特に一段階検出器が適している。
【0005】
物体検出器で検出した物体を追跡(以下、トラッキングとも言う)する技術が開発されている。追跡する物体は1つでも複数でも良く、複数の場合は、それぞれに固有の識別番号を付与し、複数の画像フレーム間で追跡を行う。追跡の標準的な手法が、非特許文献4に開示されている。非特許文献4の技術では、最初にカルマンフィルタを用いて将来の物体の位置を予測する。次に、予測した物体と将来のフレーム中で検出した物体とのジャッカード係数(IoU)から類似度を求め、その結果をもとにハンガリアンアルゴリズムによって識別番号の割り当てを行う。さらに、非特許文献5には、非特許文献4の技術によって追跡した人間や物体の情報に、物体の外観情報を追加する技術が開示されている。また、非特許文献6には、検出と追跡を一つのモデルで行う技術が開示されている。非特許文献7には、機械学習モデルの長短期記憶ニューラルネットワークに関する技術が開示されている。非特許文献8には、トランスフォーマー(Transformer)に関する技術が開示されている。非特許文献9には、3次元畳み込み に関する技術が開示されている。
【0006】
画像から人間の種々の行動を認識する行動認識技術が開発されている。行動認識のなかでも、動画の各フレームにおいて物体位置と行動クラスを予測するものは時空間行動認識(Spatio-Temporal Action Recognition)と呼ばれる。非特許文献10には、三次元のバックボーンネットワークから得た特徴マップの中央フレームに対して検出ネットワークを適用し、その結果を全てのフレームに複製して行動認識を行う技術が開示されている。
【0007】
行動認識技術の中で、歩行者を対象とした行動認識技術は、これまで主に歩行者の横断意図の予測を目的としている。非特許文献11には、複数種類の入力データを統合することにより、歩行者の横断意図の予測精度を向上させる技術が開示されている。ただし、ネットワークの予測を行うためには歩行者の追跡が事前に必要となるが、この点に関する詳細な検討がなされていない。また、従来技術においては、画像から人間を含む物体を検出する処理と,追跡する処理と、行動認識する処理を別々のモデルで行うことが一般的である。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】T.Y.Lin、P.Goyal、R.Girshick、K. He、P.Dollar「Focal loss for dense object detection」IEEE international conference on computer vision、pp.2980-2988、2017年
【非特許文献2】Z.Tian、C.Shen、H.Chen、T.He「Fcos:Fully convolutional one-stage object detection」IEEE/CVF international conference on computer vision,pp.9627-9636、2019年
【非特許文献3】H.Law、J.Deng「Cornernet:Detecting objects as paired keypoints」European conference on computer vision、pp.734-750、2018年
【非特許文献4】A.Bewley、Z.Ge、 L.Ott、F.Ramos、B.Upcroft「Simple online and realtime tracking」IEEE International Conference on Image Processing、pp.3464-3468、2016年
【非特許文献5】N.Wojke、A.Bewley、D.Paulus「Simple online and realtime tracking with a deep association metric」IEEE International Conference on Image Processing、pp.3645-3649、2017年
【非特許文献6】Y.Zhang、C.Wang、X.Wang、W.Zeng、W.Liu「Fairmot: On the fairness of detection and re-identification in multiple object tracking」International Journal of Computer Vision、pp.1-19、2021年
【非特許文献7】H.Sepp、J.Schmidhuber「LONG SHORT-TERM MEMORY」Neural computation、pp.1735-1780、1997年
【非特許文献8】A.Vaswani、N.Shazeer、N.Parmar、 J.Uszkoreit、L.Jones、A.N.Gomez、L.Kaiser 、I.Polosukhin「Attention is all you need」Advances in neural information processing systems、pp.5998-600、2017年
【非特許文献9】D.Tran、L.Bourdev、R.Fergus、L.Torresani、M.Paluri「Learning spatiotemporal features with 3D convolutional networks」IEEE international conference on computer vision、pp.4489-4497、2015年
【非特許文献10】J.Pan、S.Chen、M.Z.Shou、Y.Liu、J. Shao、H.Li「Actor-context-actor relation network for spatio-temporal action localization」IEEE/CVF Conference on Computer Vision and Pattern Recognition、pp.464-474、2021年
【非特許文献11】S.Malla、B.Dariush、C.Choi「Titan :Future forecast using action priors」IEEE/CVF Conference on Computer Vision and Pattern Recognition、pp.11186-11196、2020年
【発明の概要】
【発明が解決しようとする課題】
【0009】
従来、機械学習によって、人間が撮影されている画像を解析し、人間の行動を予測するシステムでは、入力した画像から人間を検出し追跡する処理と、行動認識の処理とを別々のモデルで行っていた。また、歩行者の横断予測を行うための行動認識を行うことがあったが、歩行者が対象物に気づいているか否かを予測する行動認識技術は行われてこなかった。
【0010】
本発明は、このような現状に鑑みてなされたものであって、時系列の画像の入力から行動認識結果の出力までを一つのシステムで行う、エンドツーエンドのシステム、すなわち単一のニューラルネットワークモデルの提供を、解決すべき課題としている。
【0011】
さらに本発明は、歩行者が対象物に気づいているか否かを予測する気づき予測システム及び気づき予測方法の提供を、解決すべき課題としている。
【課題を解決するための手段】
【0012】
本発明は、単眼カメラで撮影した動画を入力し、動画に記録された歩行者の検出、追跡、および行動認識を行って、歩行者が撮影されていることに気づいているか否かを予測する歩行者の気づき予測システムに関する。本発明の気づき予測システムは、動画内の画像から、畳み込みニューラルネットワークによって特徴マップを生成するバックボーンネットワークと、バックボーンネットワークが出力した特徴マップを入力し、畳み込みニューラルネットワークによって、歩行者の位置と歩行者固有の外観表現と気づきの有無の特徴量を出力する空間的特徴抽出枝部と、画像ごとの特徴量を蓄積して時系列で追跡し、歩行者ごとの時系列の特徴量を出力する追跡部と、追跡部が出力した歩行者ごとの時系列の特徴量を入力し、歩行者ごとに時間方向を考慮して気づいているか否かの予測結果を出力する時系列予測部と、を備えていることを特徴とする。
【0013】
本発明の気づき予測システムは、空間的特徴抽出枝部が、画像内の歩行者の中心位置を予測する中心位置予測部と、教師データと予測の歩行者の中心位置のずれを予測するオフセット部と、歩行者の大きさを学習するサイズ部と、歩行者ごとの固有の外観表現を学習し学習結果を追跡に用いるID部と、歩行者がカメラの方を向いたか否かを認識する気づき部と、を備えていることが好ましい。
【0014】
本発明はまた、歩行者の気づき予測方法を提供する。本発明の気づき予測方法は、カメラで撮影した短い動画を入力し、画像に記録された歩行者の検出、追跡、および行動認識を行って、歩行者が撮影されていることに気づいているか否かを予測する方法である。本発明の気づき予測方法は、画像から、バックボーンネットワークの畳み込みニューラルネットワークによって特徴マップを生成し、歩行者の検出と追跡を行うステップと、バックボーンネットワークが生成した特徴マップを入力し、畳み込みニューラルネットワークによって、歩行者の位置と気づきの有無の特徴量を出力するステップと、画像ごとの特徴量を蓄積して時系列で追跡し、歩行者ごとの時系列の特徴量を出力するステップと、歩行者ごとの時系列の特徴量を入力し、歩行者ごとに歩行者が撮影されていることに気づいているか否かの予測結果を出力するステップと、を備えていることを特徴とする。
【発明の効果】
【0015】
本発明の気づき予測システム及び気づき予測方法は、時系列の画像の入力から行動認識結果の出力までを一つのシステムで精度高く行う、エンドツーエンドのシステム、すなわち単一のニューラルネットワークモデルを提供することができる。
【0016】
本発明の気づき予測システム及び気づき予測方法は、歩行者が対象物に気づいているか否かを予測するだけではなく、人物の行動全般のリアルタイムの予測システム及び予測方法として適用することができる。
【図面の簡単な説明】
【0017】
図1図1は、気づき予測システムの構成を概念的に示す図である。
図2図2は、空間的特徴抽出枝部の構成を模式的に示すブロック図である。
図3図3は、時系列予測部の構成を模式的に示すブロック図である。
図4図4は、気づき予測システムの予測結果の一例を示す図である。
図5図5は、気づき予測システムの予測結果の一例を示す図である。
【発明を実施するための形態】
【0018】
以下、本発明の気づき予測システム及び気づき予測方法を、歩行者が対象物としてのカメラ方向に気づいているか否かを予測する気づき予測に適用した実施形態について、図面を参照しつつ詳細に説明する。
【0019】
図1に、気づき予測システムの構成を概念的に示す。本実施形態で説明する気づき予測システムは、カメラで撮影した時系列の画像すなわち動画を入力し、動画に記録された歩行者の検出、追跡、および行動認識を行って、歩行者が撮影されていることに気づいているか否かを予測するシステムである。本発明の気づき予測システムは、バックボーンネットワーク1と、空間的特徴抽出枝部2と、追跡部3と、時系列予測部4とを備えている。
【0020】
本発明の気づき予測システムは、記憶手段と、中央演算処理装置(CPU)と、通信手段とを備えている一台のコンピュータで構成することができる。あるいは、複数の記憶手段や複数の演算処理装置に、それぞれのモジュールの一部又は全部を分散して配置し、ネットワークを介して必要な一連の処理を行っていてもよい。一台のコンピュータで処理する場合であっても、また複数台のコンピュータで処理する場合であっても、本発明の気づき予測システムは、入力データとして画像を入力することで、出力データとして画像に写っている人物の気づき予測を出力する、エンドツーエンドのシステムとして提供される。
【0021】
本実施形態のバックボーンネットワーク1は、複数の画像フレームを時系列で並べることで構成されている動画を入力する。そして、それぞれの画像フレームごとに、畳み込みニューラルネットワークによって畳み込みと復号を行うことで特徴量を抽出し、特徴マップを生成する。本実施形態では、バックボーンネットワークとして、ディープレイヤーアグリゲーション(DLA、Deep Layer Aggregation)と称される、ネットワーク構造を好適に適用することができる。
【0022】
本実施形態の空間的特徴抽出枝部2は、バックボーンネットワーク1が出力した特徴マップを入力し、複数の枝部が独立して実行可能な畳み込みニューラルネットワークによって、歩行者の位置と歩行者固有の外観表現と気づきの有無の特徴量を出力する。空間的特徴抽出枝部2は、特徴量の出力のための枝部として、中心位置予測部と、オフセット部と、サイズ部と、ID部と、気づき部とを備えている。図2に、空間的特徴抽出枝部2のそれぞれの構成要素である枝部が出力する特徴量を模式的に示す。図2中のkは画像フレームにおける人物の数を表す.
【0023】
教師あり学習の実行時、中心位置予測部と、オフセット部と、サイズ部と、ID部と、気づき部は、バックボーンネットワークからの特徴量を入力し、それぞれが画像フレームごとの特徴量を抽出する。
【0024】
中心位置予測部は、画像フレーム内の歩行者の中心位置を予測するために、画像中の物体の中心位置が高くなるようなヒートマップ(heatmap)を学習している。本実施形態の中心位置予測部は、クラス分類目的の損失関数として、フォーカルロス(Focal Loss)Lが好適に用いられる。フォーカルロスは、不均衡なデータを含む分類問題を解く時に、予測の困難なサンプルに重み付けを行って学習することができる。図2に示すように、画像中の物体の中心位置の予測結果は、確率分布に応じた輝度の分布で示される。
【0025】
オフセット部は、教師データの歩行者と、予測の歩行者との間の中心位置のずれを予測する。具体的には、1×1畳み込みを行った後に、物体の中心位置のテンソルを抜き出し、抜き出したテンソルを教師データと対応させて学習し、結果を特徴量として出力する。本実施形態のオフセット部には、L1損失(L1Loss、平均絶対値誤差)が損失関数Lとして好適に用いられる。L1損失は、入力された各要素間の平均絶対誤差を測定するための基準を作成することができる。
【0026】
サイズ部は、歩行者の大きさを学習し、1×1畳み込みを行った後に、物体の中心位置のテンソルを抜き出し、抜き出したテンソルを教師データと対応させて学習し、結果を特徴量として出力する。本実施形態のサイズ部には、オフセット部と同様に、L1損失が損失関数Lとして好適に用いられる。
【0027】
中心位置予測部と、オフセット部と、サイズ部の結果を組み合わせることで、それぞれの画像フレームから歩行者の位置を検出することができる。図1には、入力データとして、時刻t-2、時刻t-1、時刻tにそれぞれ撮影された3枚の画像からなる入力動画の例を示している。中心位置予測部と、オフセット部と、サイズ部の処理によって、この3枚の入力画像からは、歩行者A、B、Cの3人が検出されている。
【0028】
ID部は、検出された歩行者ごとの固有の外観表現を学習し、画像フレームごとの特徴量の1×1畳み込みを行った後に、検出された歩行者を含む検出物体の中心位置のテンソルを抜き出し、抜き出したテンソルを教師データと対応させて学習し、結果を特徴ベクトルとして出力する。ID部の損失関数には、交差エントロピー誤差(CrossEntropyLoss)が損失関数Lとして好適に用いられる。
【0029】
気づき部は、画像フレームごとに、撮影されている歩行者が撮影されていることに気づいているかを判定する。気づき部は、カメラの方向を見ているか否かを画像によって認識し、カメラの方向を見ているとの判定結果が得られたときに「気づいている」と判定する。気づき部の損失関数には、ID部と同様に、交差エントロピー誤差が損失関数Lとして好適に用いられる。気づき部は、入力動画のそれぞれ画像の特徴量の1×1畳み込みを行った後に、検出された歩行者を含む検出物体の中心位置のテンソルを抜き出して、特徴量Zを出力する。
【0030】
空間的特徴抽出枝部2から出力される画像フレームごとの歩行者の特徴量は、追跡部3に入力される。追跡部3は、物体の外観情報と位置速度情報に基づき、動画内の人物を追跡(トラッキング)する。追跡部3の手法には、DeepSORT(非特許文献5)が好適に用いられる。追跡部3は、ID部で得た画像フレームの検出物体の特徴ベクトルと、追跡している物体のID特徴ベクトル同士で、コサイン類似度を計算する。コサイン類似度の計算には、公知の手法を用いることができる。そして、計算したコサイン類似度をコスト関数としてハンガリアンアルゴリズムで歩行者ごとに識別番号IDを割り当てる。ただし,過去の位置と速度から予測された将来の位置から大きく離れている場合はその識別番号を割り当てないこととする。また、新たに出現し、識別番号が割り当てられていなかった検出物体には、新たに識別番号を割り当てる。
【0031】
追跡部3は、時刻tに撮影された画像フレームの検出物体に対して気づき部が出力した特徴量Zを用い、同一の識別番号を有する歩行者ごとに、時系列で並べた特徴量
【数1】
を出力する。図1では、入力画像の歩行者Aに識別番号1が付与されており、同様に、歩行者Bに識別番号2が付与され、歩行者Cに識別番号3がそれぞれ付与された状態で、歩行者ごとに時系列で並べられた特徴量が追跡部3から出力されることが模式的に示されている。
【0032】
検出された歩行者ごとの一群の時系列特徴量Zは、時系列予測部4に入力される。時系列予測部4には、一定の時間に亘る歩行者の行動が入力されるため、より精度の高い行動認識を行うことができる。図3に、時系列予測部4の処理の内容を模式的に示す。
【0033】
好適な時系列予測部4の機械学習モデルとしては、1次元畳み込み、長短期記憶ニューラルネットワーク(以下、LSTMとも言う:非特許文献7等参照。)、トランスフォーマー(Transformer:非特許文献8等参照。)、3次元畳み込み(非特許文献9等参照。)を適用することができる。時系列予測部4の損失関数Lには交差エントロピー誤差が好適に用いられる。1次元畳み込み、長短期記憶ニューラルネットワーク、トランスフォーマーを適用する場合は、特徴ベクトルの系列を入力する。3次元畳み込みの場合は、関心領域(ROI)の系列を入力する。いずれの機械学習モデルを適用した場合であっても、時系列予測部4は、時刻tにおける歩行者の気づき予測結果
【数2】
を出力することができる。
【0034】
気づき予測システム全体の損失関数Lは下記の式で表される。ニューラルネットワークは,この損失値を最小化するように,ネットワーク内のパラメータを最適化する.
【数3】

ここで、p、p,pは学習パラメータを表す。
【0035】
さらに、時系列予測部4の気づき予測の結果と追跡部3の出力を組み合わせることで、動画撮影の期間内で一度でもカメラの方向を向いた歩行者を「気づいていた」と判定することができ、これによって最終的な気づき判定結果を得ることができる。
【0036】
追跡部3の出力と時系列予測部4の予測結果の具体的な組み合わせ方法としては、時刻tの画像フレームFよりもnフレーム前の画像Fを開始点として、モデルの予測結果
【数4】
のフレームn枚分の平均値μが、所定の閾値Thを超えたとき、その画像フレームを「気づき」が確認された画像フレームFとする。具体的な判定方法は、下記の式に従う。
【数5】

モデルの予測結果の平均を用いることにより、誤判定に影響されにくくなる。また、追跡を開始した直後は、より少ないm枚の画像フレームから判定を行うことになるので、閾値を高く設定することで補正する。
【数6】
【0037】
このように、追跡部3から出力される時系列の特徴量の出力を考慮することで、より精度の高い判定を行うことができる。
【実施例0038】
以下、本発明の気づき予測システムを用いて歩行者の気づき予測を行った実施例について説明する。実施例では、時系列予測部4の機械学習モデルに、1次元畳み込み、長短期記憶ニューラルネットワーク、トランスフォーマー、3次元畳み込みの4種類を適用し、それぞれの予測結果を比較した。
【0039】
気づき予測システムに学習を行わせるための学習用データと、学習中に学習の具合を確認するための検証データと,学習後に精度を確認するためのテストデータを以下の方法で用意した。
【0040】
カメラを用いて、解像度1920×1080の画像をフレームレート30fpsで歩道と歩道を歩く歩行者を撮影した。撮影の時間帯は昼から夕方で、天候と撮影場所はシーンによって、異なっている。人物が映っている画像を切り出し、それぞれの人物に対して、その人物が含まれるバウンディングボックス(以下、省略してBBとも称する)と固有の識別番号、カメラ方向に向いているかいないかのラベルを付与し、データセットを作成した。
【0041】
歩行者がカメラを向いているかどうかのラベルは、歩行者の検出した顔の向きに基づいて設定した。人間の視野角を左右120度、上下60度と定義して、カメラに対する顔の角度が、その範囲にあることが検出された場合に、歩行者がカメラの方を向いているとしてラベル付けを行った。ただし、学習用データについては、気づいているかどうかをより明確に評価するため、3秒間カメラを向いている歩行者に限定して、カメラを向いた歩行者としてのラベル付けを行った。データセットの詳細を表1と表2に示す。
【表1】

【表2】
【0042】
学習用データによる気づき予測システムの学習の条件は、以下の通りである。最適化アルゴリズムはAdaptive Moment Estimation (Adam)、学習率は10-4、入力系列長は8である。時系列予測部の一次元畳み込みと三次元畳み込みでは4層に重ねたネットワークを用い、長短期記憶ニューラルネットワークとトランスフォーマーは2層に重ねたネットワークを用いた。また、いずれの場合においてもチャンネル調整用に,1×1畳み込みを、積み重ねた層の後に挿入した。気づき判定に使用するパラメータであるTh は0.7とし、nは10とした。
【0043】
実施例の気づき予測システムの評価指標として、「歩行者の気づきのみの検出精度」、「平均精度(mean average precision、以下mAPとも称する)」、「複数物体追跡精度(multi object tracking accuracy、以下MOTAとも称する)」を評価した。また、推論速度の評価のためにフレームレート(FPS)を評価した。
【0044】
「歩行者の気づきのみの検出精度」とは、画像中の物体の検出精度に関わらず、気づきが正しく判定できているかを確認するために設定した指標である。「歩行者の気づきのみの検出精度」には、学習データに含まれる歩行者の位置情報を用いた。評価基準としては、気づき予測システムが検出したバウンディングボックスに含まれている物体が歩行者であり、その歩行者に関して気づきのクラスが学習データのラベルと一致しており、かつ予測値
【数7】
が80%以上(≧0.8)のとき正解とした。
【0045】
平均精度(mAP)は物体検出を評価する際に一般に用いられている評価指標であって、100に近い値となるほど精度が高いとされる。複数物体追跡精度(MOTA)は、誤検出(FP)、検出の見逃し(FN)、物体の識別番号IDの切り替わり回数(ID_s)の3つを考慮した、動画中の多物体追跡精度を評価する際に一般に用いられている評価指標である。複数物体追跡精度は、100に近い値となるほど精度が高いとされる。
【0046】
以下の表3に、本実施例の気づき予測システムにテスト用データを入力し、気づき予測を行った結果を示す。比較例として、時系列予測部を設けずに1フレームずつ気づき部に入力して予測を行った結果を示す。
【0047】
【表3】
【0048】
mAPの評価結果から、実施例の全ての気づき予測システムは、比較例よりも気づき判定精度が高くなることが確認され、時系列予測部の効果が明らかとなった。また、実施例の中では、時系列予測部に3次元畳み込みを適用した気づき予測システムが、他の機械学習モデルを適用した気づき予測システムと比較すると、予測の精度が低くなることが明らかとなった。その原因として、3次元畳み込みは時間方向に畳み込む以外に,空間方向に畳み込むことを行っており、他の気づき予測システムと比較すると、時間方向に注視することを学習しづらかったためと考えられる。実施例の中では、時系列予測部にトランスフォーマーを適用した気づき予測システムの精度が、最も高くなった。これはトランスフォーマーが系列データを扱うのに適したモデルであるためと考えられる。また、MOTAの評価結果からは、いずれの気づき予測システムも十分な予測精度が得られていることが明らかとなった。さらにFPSの評価結果から、実施例の気づき予測システムの推論速度は、比較例と同等であることが明らかとなった。これは、バックボーンネットワークから得た特徴マップを直接用いることができるエンドツーエンドなネットワークの利点であるといえる。
【0049】
図4および図5に実施例の気づき予測システムが画像として出力する予測結果の出力例を示す。図中の歩行者ごとのバウンディングボックスは、たとえば、カメラに気づいていない者と気づいている者とで異なる色表示を行って、気づきの判定結果をわかりやすく表示することができる。また、気づき予測システムは、それぞれの歩行者に対して、画像フレームの時刻における気づき予測の結果に対応したゲージを表示することができる。たとえば、その画像フレームの時刻においてカメラの方向を向いている度合いが低いとの推論結果が得られている場合にはゲージを短くし、カメラ方向を向いているとの推論結果が得られている場合にはゲージを長くすることができる。
【0050】
評価指標として「歩行者の気づきのみの検出精度」を用い、実施例の気づき予測システムと従来技術との検出精度の違いを確認した。表4に、検証データを用いた場合、時系列予測部にトランスフォーマーを用いた実施例の気づき予測システムの検出精度と、従来から知られている物体検出システムによる気づきの検出精度とを比較した結果を示す。従来の物体検出システムとしては、バックボーンネットワークにAlexNet(Krizhevskyら,2012年)を使用し、教師データのバウンディングボックスを使用して振り向き判定を行わせた従来例1と、バックボーンネットワークにディープレイヤーアグリゲーションを使用し、教師データのバウンディングボックスを使用した場合の気づき予測を行った。表4に示すとおり、実施例の気づき予測システムは、従来の物体検出システムを気づき予測に応用するよりも、高い検出精度を有していることが明らかとなった。
【0051】
【表4】
【0052】
以上説明してきたとおり、本発明の気づき予測システムは、時系列の画像である動画の入力から行動認識結果である気づき予測の出力までを一つのシステムで従来よりも精度高く行う、エンドツーエンドのシステムを提供することができる。
【産業上の利用可能性】
【0053】
本発明の気づき予測システムと気づき予測方法は、人物の行動全般のリアルタイムの予測システム及び予測方法として適用することができる。
【符号の説明】
【0054】
1 バックボーンネットワーク
2 空間的特徴抽出部
3 追跡部
4 時系列予測部
図1
図2
図3
図4
図5