IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-182434学習システム、作業者動作認識システム、認識モデルの学習方法
<>
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図1
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図2
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図3
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図4
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図5
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図6
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図7
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図8
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図9
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図10
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図11
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図12
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図13
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図14
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図15
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図16
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図17
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図18
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図19
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図20
  • 特開-学習システム、作業者動作認識システム、認識モデルの学習方法 図21
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023182434
(43)【公開日】2023-12-26
(54)【発明の名称】学習システム、作業者動作認識システム、認識モデルの学習方法
(51)【国際特許分類】
   G06V 40/20 20220101AFI20231219BHJP
   G06T 7/00 20170101ALI20231219BHJP
   G06T 7/20 20170101ALI20231219BHJP
   G06V 10/70 20220101ALI20231219BHJP
   G06Q 50/08 20120101ALI20231219BHJP
【FI】
G06V40/20
G06T7/00 350B
G06T7/20 300Z
G06V10/70
G06Q50/08
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022096038
(22)【出願日】2022-06-14
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】シンハ サプタルシ
(72)【発明者】
【氏名】大橋 洋輝
【テーマコード(参考)】
5L049
5L096
【Fターム(参考)】
5L049CC07
5L096AA06
5L096BA18
5L096CA04
5L096CA22
5L096DA01
5L096EA35
5L096EA39
5L096GA30
5L096GA51
5L096HA11
5L096KA04
(57)【要約】
【課題】トリミングが不十分な動画であってもリスクが高い行動を認識できる認識モデルを提供できる。
【解決手段】学習システムは、行動カテゴリに含まれる主カテゴリに属する動画である主カテゴリ動画、および行動カテゴリに含まれ主カテゴリとは異なる副カテゴリに属する動画である副カテゴリ動画の2つの動画を結合点において結合し、結合点を含むようにトリミングして学習用動画を生成する学習用動画生成部と、学習用動画を用いて、入力される学習用動画に対して主カテゴリを出力する認識モデルの学習を行う学習部と、認識モデルによる予測結果を評価して評価結果を生成する性能評価部と、を備え、副カテゴリは、行動カテゴリにおける主カテゴリおよび副カテゴリの危険度、および評価結果に基づき選択される。
【選択図】図1
【特許請求の範囲】
【請求項1】
行動カテゴリに含まれる主カテゴリに属する動画である主カテゴリ動画、および前記行動カテゴリに含まれ前記主カテゴリとは異なる副カテゴリに属する動画である副カテゴリ動画の2つの動画を結合点において結合し、前記結合点を含むようにトリミングして学習用動画を生成する学習用動画生成部と、
前記学習用動画を用いて、入力される前記学習用動画に対して前記主カテゴリを出力する認識モデルの学習を行う学習部と、
前記認識モデルによる予測結果を評価して評価結果を生成する性能評価部と、を備え、
前記副カテゴリは、前記行動カテゴリにおける前記主カテゴリおよび前記副カテゴリの危険度、および前記評価結果に基づき選択される、学習システム。
【請求項2】
請求項1に記載の学習システムにおいて、
前記認識モデルが、決定された前記主カテゴリに対して誤って判断することが最も多い前記行動カテゴリを前記副カテゴリとして決定する副カテゴリ決定部をさらに備える学習システム。
【請求項3】
請求項1に記載の学習システムにおいて、
前記学習用動画生成部は、前記認識モデルの認識性能において、前記主カテゴリの前記学習用動画を前記副カテゴリとして判断する割合が所定の閾値よりも高い場合に前記学習用動画を生成する学習システム。
【請求項4】
請求項1に記載の学習システムにおいて、
前記行動カテゴリにおけるリスクが高いほど高い頻度で前記行動カテゴリを主カテゴリに決定する主カテゴリ決定部をさらに備える学習システム。
【請求項5】
請求項2に記載の学習システムにおいて、
前記副カテゴリ決定部は、前記行動カテゴリに含まれる各カテゴリのリスクを示すリスク情報および、前記評価結果に基づき前記副カテゴリを決定する学習システム。
【請求項6】
請求項4に記載の学習システムにおいて、
前記主カテゴリ決定部は、前記行動カテゴリに含まれる各カテゴリのリスク、前記主カテゴリ動画の母集団である分割済動画群における前記行動カテゴリの各カテゴリの存在頻度、および注視パラメータに基づき前記主カテゴリを決定し、
前記注視パラメータは、前記行動カテゴリに含まれる各カテゴリのリスクと、前記分割済動画群における前記行動カテゴリの各カテゴリの存在頻度とが前記主カテゴリの決定に与える影響の比率を決定する学習システム。
【請求項7】
請求項5に記載の学習システムにおいて、
過去の統計に基づき前記リスク情報を算出するリスク情報生成部をさらに備える学習システム。
【請求項8】
請求項5に記載の学習システムにおいて、
前記副カテゴリ決定部は、前記リスク情報、前記評価結果、および比率パラメータに基づき前記副カテゴリを決定し、
前記比率パラメータは、前記リスク情報と、前記評価結果とが前記副カテゴリの決定に与える影響の比率を決定する学習システム。
【請求項9】
請求項1に記載の学習システムにおいて、
前記性能評価部は、前記認識モデルが学習に用いた前記学習用動画とは異なる動画を入力として得られた予測結果を評価する学習システム。
【請求項10】
請求項1に記載の学習システムにおいて、
前記性能評価部は、所定のバッチ数ごとに前記認識モデルの性能を評価する学習システム。
【請求項11】
請求項6に記載の学習システムにおいて、
前記注視パラメータは前記行動カテゴリに含まれるカテゴリごとに設定される学習システム。
【請求項12】
請求項1に記載の学習システムにより生成された認識モデルと、
作業者を検出する検出器と、
前記作業者を追跡する追跡器と、
前記検出器および前記追跡器を用いて前記作業者が存在する領域である候補領域を抽出する抽出器と、を備え、
前記認識モデルは、前記候補領域の映像を入力とする作業者動作認識システム。
【請求項13】
請求項1に記載の学習システムにより生成された認識モデルと、
作業者の手を検出する検出器と、
前記作業者の手を追跡する追跡器と、
前記検出器および前記追跡器を用いて前記作業者が存在する領域である候補領域を抽出する抽出器と、を備え、
前記認識モデルは、前記候補領域の映像を入力とする作業者動作認識システム。
【請求項14】
入力される動画に対応するカテゴリを出力する認識モデルの学習方法であって、
行動カテゴリに含まれる主カテゴリに属する動画である主カテゴリ動画、および前記行動カテゴリに含まれ前記主カテゴリとは異なる副カテゴリに属する動画である副カテゴリ動画の2つの動画を結合点において結合し、前記結合点を含むようにトリミングして学習用動画を生成することと、
前記学習用動画を用いて、入力される前記学習用動画に対して前記主カテゴリを出力するように前記認識モデルの学習を行うことと、
前記認識モデルによる予測結果を評価して評価結果を生成することと、を含み、
前記副カテゴリは、前記行動カテゴリにおける前記主カテゴリおよび前記副カテゴリの危険度、および前記評価結果に基づき選択される、認識モデルの学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習システム、作業者動作認識システム、および認識モデルの学習方法に関する。
【背景技術】
【0002】
ロングテールは、人工知能を用いた認識作業でしばしば直面する基本的な問題である。この問題は、一部のカテゴリが他のカテゴリに比べて非常に少ない学習データしか存在しない問題である。産業界における作業員の活動認識においても、同様に学習データの不均一が発生しやすい。産業界では、ある種の活動は他の活動に比べて実行するリスクが高い。たとえば、屋根に登ることはネジを締めることよりもはるかにリスクが高く、頻繁に行われると事故につながる可能性がある。このように、ある活動には高いリスクが伴うため、すべての活動に対して同量の学習データを収集することは非常に困難であり、ロングテールのデータセットが発生する。
【0003】
このようなロングテールデータセットを用いて活動認識モデルを作成すると、偏った性能となる。具体的には、学習データが十分なカテゴリに対しては非常に良い性能を示し、学習データが少ないカテゴリに対しては非常に悪い性能を示す。これは、従来、認識モデルは全ての学習サンプルに等しい重みを与えて更新されるため、より多くのデータを持つカテゴリからより多く学習するためである。この問題を解決する最も簡単な方法は、データ量の少ない活動に対してより多くのデータを収集することである。しかし、データ量の少ないカテゴリは一般的に屋根に登るなど、何度も繰り返すことができないリスクの高い活動であるため現実的ではない。このような危険な活動を高い精度で認識し、作業者の事故を未然に防ぐための支援を行うことが求められている。
【0004】
これまでにも、より多くのデータを収集することなくロングテールを解決しようとする先行研究がある。ロングテールに対する手法としては、データの再サンプリングと重み付きロスの2つが一般的である。データ再サンプリング法は、訓練サンプルを不均等なサンプリング確率でサンプリングし、一般に訓練サンプルが少ないカテゴリほど高い確率でサンプリングする。重み付きロスは、サンプルごとに重みを設定し、その重みは各サンプルからの更新を増減させるために使用される。重み付けは、一般に、学習サンプルが少ないカテゴリほど高くなり、全カテゴリからの更新量のバランスをとることを目的としている。
【0005】
特許文献1では重み付き損失を用いており、他にもデータの再サンプリングを用いる手法も知られている。しかし、これらの手法の多くは、画像認識タスクに対して提案されている。さらに、フレームスタッキングの手法を導入し、ロングテールの映像認識問題に取り組む手法も知られている。ここでは、2つのカテゴリをランダムにサンプリングし、その学習データ頻度に基づいて、それぞれのカテゴリからフレームをサンプリングし、スタッキングする。次に、2つのカテゴリからバランスよく学習するために、ソフトラベルを用いて認識モデルを学習する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許出願公開第2019/0232964号明細書
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1や公知の手法は、推論時に、提供された動画が適切にトリミング、すなわち時間領域において分割されていることを前提としている。しかし現実には適切なトリミングが行われないことも十分に想定される。たとえば、ある動画にリスクが高い動作とともにリスクが低い行動の一部を含んでいる場合に、認識システムはリスクが低い動作のみを認識する可能性が高く、リスクのある行動を無視することになる。しかし、このように不適切にトリミングされた動画は、産業界で起こりうる事故を防ぐために、リスクが高い動作を認識することが非常に重要である。
【課題を解決するための手段】
【0008】
本発明の第1の態様による学習システムは、行動カテゴリに含まれる主カテゴリに属する動画である主カテゴリ動画、および前記行動カテゴリに含まれ前記主カテゴリとは異なる副カテゴリに属する動画である副カテゴリ動画の2つの動画を結合点において結合し、前記結合点を含むようにトリミングして学習用動画を生成する学習用動画生成部と、前記学習用動画を用いて、入力される前記学習用動画に対して前記主カテゴリを出力する認識モデルの学習を行う学習部と、前記認識モデルによる予測結果を評価して評価結果を生成する性能評価部と、を備え、前記副カテゴリは、前記行動カテゴリにおける前記主カテゴリおよび前記副カテゴリの危険度、および前記評価結果に基づき選択される。
本発明の第2の態様による作業者動作認識システムは、前述の学習システムにより生成された認識モデルと、作業者を検出する検出器と、前記作業者を追跡する追跡器と、前記検出器および前記追跡器を用いて前記作業者が存在する領域である候補領域を抽出する抽出器と、を備え、前記認識モデルは、前記候補領域の映像を入力とする。
本発明の第3の態様による作業者動作認識システムは、前述の学習システムにより生成された認識モデルと、作業者の手を検出する検出器と、前記作業者の手を追跡する追跡器と、前記検出器および前記追跡器を用いて前記作業者が存在する領域である候補領域を抽出する抽出器と、を備え、前記認識モデルは、前記候補領域の映像を入力とする。
本発明の第4の態様による認識モデルの学習方法は、入力される動画に対応するカテゴリを出力する認識モデルの学習方法であって、行動カテゴリに含まれる主カテゴリに属する動画である主カテゴリ動画、および前記行動カテゴリに含まれ前記主カテゴリとは異なる副カテゴリに属する動画である副カテゴリ動画の2つの動画を結合点において結合し、前記結合点を含むようにトリミングして学習用動画を生成することと、前記学習用動画を用いて、入力される前記学習用動画に対して前記主カテゴリを出力するように前記認識モデルの学習を行うことと、前記認識モデルによる予測結果を評価して評価結果を生成することと、を含み、前記副カテゴリは、前記行動カテゴリにおける前記主カテゴリおよび前記副カテゴリの危険度、および前記評価結果に基づき選択される。
【発明の効果】
【0009】
本発明によれば、トリミングが不十分な動画であってもリスクが高い行動を認識できる認識モデルを提供できる。
【図面の簡単な説明】
【0010】
図1】第1の実施の形態における学習システムの構成図
図2】分割済動画および複合動画を説明する概念図
図3】動作ラベル群の一例を示す図
図4】主カテゴリ決定部による決定の履歴の一例を示す図
図5】統計情報の一例を示す図
図6】リスク情報の一例を示す図
図7】評価結果の一例を示す図
図8】学習システムのハードウエア構成図
図9】相対難易度算出部の動作を示すフローチャート
図10】決定部の動作を示すフローチャート
図11】学習用動画生成部の動作を示すフローチャート
図12】学習用動画生成部の動作の具体例を示す図
図13】性能評価部の動作を示すフローチャート
図14】第2の実施の形態における学習システムの構成図
図15】第2の実施の形態における学習用動画生成部の動作を示すフローチャート
図16】第3の実施の形態における学習システムの構成図
図17】第3の実施の形態における主カテゴリ決定部の動作を示すフローチャート
図18】第3の実施の形態の変形例における注視パラメータの一例を示す図
図19】第4の実施の形態における学習システムの構成図
図20】GUIを説明する図
図21】作業者動作認識システムの構成図
【発明を実施するための形態】
【0011】
―第1の実施の形態―
【0012】
以下、図1図13を参照して、学習システムの第1の実施の形態を説明する。
【0013】
図1は、学習システム1の全体構成図である。学習システム1はその機能として、主カテゴリ決定部103と、副カテゴリ決定部106と、学習用動画生成部107と、性能評価部113と、学習部114と、リスク情報生成部118と、を備える。また学習システム1は、分割済動画群101、動作ラベル群102、統計情報119、リスク情報104、比率パラメータ105、および評価結果117の情報を有する。学習システム1を構成する要素を説明する前に、本実施の形態における動画の分類を説明する。
【0014】
図2は、本実施の形態における分割済動画および複合動画を説明する概念図である。動画V100は、長さ40秒の動画、すなわちビデオクリップである。動画V100には、複数のシーンが含まれており、たとえば0秒から10秒までは作業員の歩行シーン、10秒から20秒まではネジを締めるシーン、20秒から30秒までは屋根の上で作業するシーン、30秒から40秒までは記録を作成するシーンである。それぞれのシーンには、人物による動作が1種類のみ含まれる。本実施の形態では、人物の動作を「動作ラベル」として分類する。動作ラベルにはたとえば、歩く、走る、ネジを締める、ハンマーで叩く、屋根に登る、記録作成、などが含まれる。
【0015】
この動画V100を対象として、1つのシーンだけを含むようにトリミング、すなわち時間領域で抜き出した動画を、本実施の形態では「分割済動画」と呼ぶ。これに対して分割が不完全であり、複数のシーンを含むようにトリミングされた動画を「複合動画」と呼ぶ。すなわち複合動画には、人物による複数の動作が含まれる。たとえば、動画V100の0秒~10秒を抜き出した動画V101、10秒から20秒を抜き出した動画V102、20秒~30秒を抜き出した動画V103、30秒から40秒を抜き出した動画V104、のそれぞれは分割済動画である。これに対して、動画V100の0秒から13秒を抜き出した動画V111、5秒から20秒を抜き出した動画V112、20秒から45秒までを抜き出した動画V113は複合動画である。なお本実施の形態における動画のトリミングは、図2に示したように動画、すなわちビデオクリップを時間領域で抜き出すことを意味する。図1に戻って説明を続ける。
【0016】
分割済動画群101は、あらかじめ作成された分割済動画の集合体である。動作ラベル群102は、あらかじめ作成された、分割済動画群101に含まれる各動画に対応する動作ラベルの集合体である。
【0017】
主カテゴリ決定部103は、学習用動画生成部107が生成する複合動画に含める動画の主カテゴリを決定する。主カテゴリ決定部103は、動作ラベル群102を参照して主カテゴリを決定する場合もあるし、リスク情報104を参照して主カテゴリを決定する場合もある。主カテゴリ決定部103は、決定した主カテゴリの情報を副カテゴリ決定部106、学習用動画生成部107、損失算出部111、および性能評価部113に出力する。ただし図1では、作図の都合により主カテゴリ決定部103から損失算出部111、および性能評価部113への矢印は記載していない。主カテゴリ決定部103の詳細な動作は後述する。
【0018】
副カテゴリ決定部106は、学習用動画生成部107が生成する学習用動画に含める動画の副カテゴリを決定する。副カテゴリ決定部106は、決定した副カテゴリを学習用動画生成部107に出力する。副カテゴリ決定部106には、主カテゴリ決定部103が決定した主カテゴリ、比率パラメータ105、リスク情報104、性能評価部113が出力する認識モデル108の性能、が入力される。学習用動画生成部107は、主カテゴリ決定部103が決定した主カテゴリ、および副カテゴリ決定部106が決定した副カテゴリに基づき複合動画である学習用動画を生成する。学習用動画生成部107は、生成した学習用動画を認識モデル108に出力する。
【0019】
学習部114は、認識モデル108、予測結果110、損失算出部111、更新部112、およびモデルパラメータ109を含む。学習部114は、学習用動画生成部107が生成する学習用動画を用いて認識モデル108のモデルパラメータ109を更新する。学習部114に入力される学習用動画生成部107は本実施の形態に特有のものであるが、入力がされた動画のラベルを出力するニューラルネットワークの学習処理は広く知られているので、学習部114の構成および処理は簡単に説明する。
【0020】
認識モデル108はたとえば、Transformers、LSTM(Long Short Term Memory)、3D-CNN(3D Convolutional Neural Network)などの任意の映像認識モデルである。モデルパラメータ109は、モデルの重みとバイアスである。認識モデル108は、学習用動画生成部107から学習用動画が入力されると予測結果110を出力する。この予測結果110は、損失算出部111および性能評価部113の両方によって、学習用動画の正しいカテゴリ情報、すなわち主カテゴリ決定部103が出力する主カテゴリと比較される。
【0021】
損失算出部111はたとえば、クロスエントロピー損失関数を用いて損失を計算する。ただし損失算出部111は、焦点損失、平均二乗誤差損失、およびバイナリクロスエントロピー損失などの他の損失関数を用いてもよい。更新部112は、損失算出部111によって計算された損失を用いて、モデルパラメータ109を更新する。更新部112はたとえば、バックプロパゲーション法を用いることができる。性能評価部113は、予測結果110を用いて認識モデル108の性能を計算し、副カテゴリ決定部106にフィードバックする。性能評価部113は、所定のバッチ数、または所定のエポック数ごとに認識モデル108の性能を計算する。学習部114による学習処理は、損失が最小値に達するか、反復回数が最大値に達するまで繰り返し行われる。
【0022】
図3は、動作ラベル群102の一例を示す図である。動作ラベル群102は複数のレコードから構成され、各レコードは識別子201、および動作ラベル202のフィールドを有する。識別子201の欄に記載の「VC001」などは分割済動画群101に含まれる動画の識別子である。動作ラベル202の欄に記載の「A1」、「A2」などは動作ラベルである。図3に示す例では、「VC001」の動画の動作ラベルは「A1」であることが示されている。
【0023】
図4は、主カテゴリ決定部103による決定の履歴の一例を示す図である。図4に示す例では、主カテゴリ決定部103による1回目の決定では主カテゴリに「A4」が決定され、2回目には「A2」、3回目には「A7」が決定されたことが示されている。なおこの情報は主カテゴリ決定部103が決定を行うたびに送信されてもよいし、複数回の決定がなされた後にまとめて送信されてもよい。
【0024】
図5は、統計情報119の一例を示す図である。統計情報119は、分割済動画群101に含まれる動画に関する統計であってもよいし、分割済動画群101に含まれるか否かに関わらず所定期間、たとえば昨年1年間の統計であってもよい。統計情報119は複数のレコードから構成され、各レコードは動作ラベル1191、事故発生件数1192、および全体件数1193のフィールドを有する。動作ラベル1191は、動作ラベル1022と同一の意味である。事故発生件数1192は、同一レコードの動作ラベル1191に対応する作業において事故が発生した件数である。全体件数1193は、同一レコードの動作ラベル1191に対応する作業の総実行数である。すなわち統計情報119において、事故発生件数1192および全体件数1193は、実際には何らかの数値が入力される。
【0025】
統計情報119は、動作ラベル1191同士における危険性の相対評価に用いられるので、1つの統計情報119において基準が統一されていればよく、様々な基準を用いることができる。たとえば、全体件数1193は、動作ラベル1191に対応する動作が撮影された動画の数でもよいし、撮影の有無に関わらず動作ラベル1191に対応する動作を実行した回数でもよい。さらに、全体件数1193は動作ラベル1191に対応する動作が実行した時間の長さを示す情報、たとえば実行した時間の合計を示す「分」単位の数であってもよい。
【0026】
図6は、リスク情報104の一例を示す図である。リスク情報104は複数のレコードから構成され、各レコードは動作ラベル1041、およびリスク指数1042のフィールドを有する。動作ラベル1041は、動作ラベル202などと同一である。リスク指数402は、同一レコードにおける動作ラベル401で表される動作のリスクの大きさを示す数値である。リスク指数402は、動作ラベル同士での比較ができればよく、定義や算出方法は任意である。たとえば、リスク情報生成部118が統計情報119を用いてリスク指数402を算出してもよいし、人間がアンケート結果に基づいてリスク指数402を決定してもよい。たとえばリスク情報生成部118は、動作ラベルごとに、統計情報119の事故発生件数501を全体件数502で除して得られる0~1の値をリスク指数402としてもよい。
【0027】
図7は、性能評価部113による評価結果117の一例を示す図である。評価結果117は複数のレコードから構成され、各レコードは動作ラベルと性能のフィールドを有する。図7に示す例では、性能として分類精度を用いているが、精度、f測定、エラーなどの様々な他の測定基準を用いてもよい。
【0028】
図8は、学習システム1のハードウエア構成図である。学習システムは1以上の演算装置40から構成される。演算装置40は、中央演算装置であるCPU41、読み出し専用の記憶装置であるROM42、読み書き可能な記憶装置であるRAM43、ユーザインタフェースである入出力装置44、および通信装置45を備える。CPU41がROM42に格納されるプログラムをRAM43に展開して実行することで前述の様々な演算を行う。すなわち、主カテゴリ決定部103、副カテゴリ決定部106、学習用動画生成部107、性能評価部113、損失算出部111、更新部112、およびリスク情報生成部118は、CPU41により実現される。
【0029】
分割済動画群101、動作ラベル群102、統計情報119、リスク情報104、比率パラメータ105、および評価結果117は、RAM43に格納されてもよいし、不図示の不揮発性の記憶装置に格納されてもよい。通信装置45は、他の演算装置40との通信に用いられる。学習システム1が単一の演算装置40により構成される場合には、演算装置40は通信装置45を備えなくてもよい。
【0030】
演算装置40は、CPU41、ROM42、およびRAM43の組み合わせの代わりに書き換え可能な論理回路であるFPGA(Field Programmable Gate Array)や特定用途向け集積回路であるASIC(Application Specific Integrated Circuit)により実現されてもよい。また演算装置40は、CPU41、ROM42、およびRAM43の組み合わせの代わりに、異なる構成の組み合わせ、たとえばCPU41、ROM42、RAM43とFPGAの組み合わせにより実現されてもよい。
【0031】
主カテゴリ決定部103の動作には次の2つがある。第1の動作は、正頻度決定である。この場合には主カテゴリ決定部103は、分割済動画群101からランダムに1つの正分割動画を抽出し、その正分割動画に対応する動作ラベルを動作ラベル群102から読みだす。この場合には、分割済動画群101からランダムに動画が抽出されるので、分割済動画群101に含まれている動画のカテゴリの割合と、抽出されるカテゴリの割合は正比例する。分割済動画群101に含まれている動画が多いカテゴリほど選択されやすくなる。すなわちこの場合には正比例頻度でカテゴリが選択されるとも言える。
【0032】
第2の動作は、逆頻度決定である。この場合には主カテゴリ決定部103は、まず動作ラベル群102の全体を読み込み、分割済動画群101に含まれる動画の動作ラベルの存在割合を算出する。そして主カテゴリ決定部103は、存在割合の逆数に応じた確率で動作ラベルを選択する。そのため、逆頻度決定では分割済動画群101に含まれる動画の数が少ないカテゴリほど選択されやすくなる。逆頻度決定は、ロングテール認識問題対して有効である。
【0033】
図9は、相対難易度算出部703の動作を示すフローチャートである。相対難易度算出部703は、まずステップS301において、必要な情報を読み込む。本ステップにおいて読み込まれる情報は、リスク情報104、主カテゴリ決定部103が決定した主カテゴリ、性能評価部113が算出した評価結果117、および比率パラメータ105である。続くステップS302では相対難易度算出部703は、変数iを1で初期化してステップS303に進む。この変数iは動作カテゴリを示す変数であり、変数iの値を変更することにより動作ラベルAiが示す動作カテゴリが変更される。ステップS303では相対難易度算出部703は、動作ラベルAnと動作ラベルAiの相対難易度d(n、i)を算出する。相対難易度d(n、i)は次の式1により算出される。
【0034】
d(n、i)=POW(Rn/Ri、γ)*POW(ACCi/ACCn、1-γ) ・・・ (式1)
【0035】
ただし、式1における関数POWは、第1引数に対する第2引数の累乗演算を示し、たとえばPOW(10、2)は「10」の「2」乗を示すので「100」となる。また、式1におけるRnは動作ラベルAnのリスク指数、Riは動作ラベルAiのリスク指数、ACCiは動作ラベルAiの評価値、ACCnは動作ラベルAnの評価値である。γは比率パラメータ105であり、あらかじめ設定された0~1の値である。
【0036】
なお、動作ラベルAnは主カテゴリの動作ラベルであり、動作ラベルAiは変数iに対応するカテゴリの動作ラベルである。動作ラベルAnのリスク指数が動作ラベルAiのリスク指数よりも大きい場合には、Rn/Riは1よりも大きくなる。ACCi/ACCnは、モデル性能のカテゴリiに対するカテゴリnのバイアスである。γが増加すると相対難易度dにおけるリスクの比の比重が増加し、γが減少すると相対難易度dにおけるリスクの比の比重が減少する。
【0037】
続くステップS304では相対難易度算出部703は、変数iをインクリメント、すなわち変数iの値を「1」だけ増加させてステップS305に進む。ステップS305では相対難易度算出部703は、変数iの値が動作ラベルの総数Cを超えるか否かを判断する。相対難易度算出部703は、変数iの値が動作ラベルの総数Cを超えると判断する場合はステップS306に進み、変数iの値が動作ラベルの総数Cを超えないと判断する場合はステップS303に戻る。ステップS306では相対難易度算出部703は、これまでステップS303において算出した相対難易度dを決定部704に出力して図9に示す処理を終了する。ステップS302~S305では、変数iを1からCまで変化させて相対難易度を算出するので、ステップS306において出力される相対難易度dは、d(n、1)、d(n、2)、d(n、3)、・・・、d(n、C)である。
【0038】
図10は、決定部704の動作を示すフローチャートである。決定部704は、まずステップS311において相対難易度算出部703が算出した相対難易度dを読み込む。続くステップS312では決定部704は、読み込んだ複数の相対難易度dの中から最大の値を有する相対難易度のカテゴリ番号を特定する。続くステップS313では決定部704は、ステップS312において特定したカテゴリ番号を副カテゴリの番号として出力する。続くステップS314では決定部704は、最大の相対難易度を出力して図10に示す処理を終了する。
【0039】
図11は、学習用動画生成部107の動作を示すフローチャートである。以下では、学習用動画生成部107の動作の具体例を示す図12を参照しながら図11の処理を説明する。学習用動画生成部107は、まずステップS321において必要な情報を読み込む。本ステップにおいて読み込まれる情報は、主カテゴリおよび副カテゴリである。続くステップS322では学習用動画生成部107は、主カテゴリの動画をランダムに分割済動画群101から1つ選択する。ただし、これまでにステップS322を実行したことがある場合には本ステップの処理を省略し、前回と同じ主カテゴリの動画を選択してもよい。
【0040】
続くステップS323では学習用動画生成部107は、副カテゴリの動画をランダムに分割済動画群101から1つ選択する。続くステップS323では学習用動画生成部107は、ステップS322とステップS323において選択した合計2つの動画を単純結合する。ここでいう単純結合とは、一方の動画の後ろに他方の動画の先頭をつなげて1つの動画とする処理である。図12を参照して具体的に説明する。
【0041】
図12における符号Vpは、ステップS322において選択される主カテゴリの動画を示している。符号Vsは、ステップS323において選択される副カテゴリの動画を示している。以下での説明のために、主カテゴリ動画Vpの長さをTp、副カテゴリ動画Vsの長さをTsと呼ぶ。ステップS324では、主カテゴリ動画Vpの後ろに副カテゴリ動画Vsを配置、または副カテゴリ動画Vsの後ろに主カテゴリ動画Vpを配置する。いずれの場合も、単純結合した動画の長さはTp+Tsである。主カテゴリ動画Vpと副カテゴリ動画Vsのいずれの後ろに他方を配置するかは、ランダムに決定する。
【0042】
続くステップS325では学習用動画生成部107は、切り替わりタイミングTwを特定する。切り替わりタイミングTwとは、単純結合動画Vcにおける主カテゴリ動画Vpと副カテゴリ動画Vsとが切り替わるタイミングである。切り替わりタイミングTwは、たとえば単純結合動画Vcの先頭からの時間で、または単純結合動画Vcの末尾からの時間で示すことができる。本実施の形態では、切り替わりタイミングTwは、単純結合動画Vcの先頭からの時間で示す。主カテゴリ動画Vpの後ろに副カテゴリ動画Vsを配置して単純結合動画Vcとした場合には、切り替わりタイミングTwは主カテゴリ動画Vpの長さであるTpである。副カテゴリ動画Vsの後ろに主カテゴリ動画Vpを配置して単純結合動画Vcとした場合には、切り替わりタイミングTwは副カテゴリ動画Vsの長さであるTsである。
【0043】
続くステップS326では学習用動画生成部107は、切り替わり前の動画の長さである前長さL1、および切り替わり後の動画の長さである後長さL2を決定する。前長さL1および後長さL2は、ランダムに決定してもよいし、オペレータが予め指定してもよい。また、前長さL1および後長さL2を直接決定または指定する代わりに、前長さL1と後長さL2との和、および前長さL1と後長さL2の比率を決定または指定してもよい。続くステップS326では学習用動画生成部107は、単純結合動画Vcにおける時刻”Tw-L1”から時刻”Tw+L2”までの動画を学習用動画として切り出して図11における処理を終了する。図12に示すように、学習用動画VTは長さがL1+L2であり、時刻L1において主カテゴリ動画Vpと副カテゴリ動画Vsとが切り替わる動画である。
【0044】
以上説明した学習用動画生成部107の処理は、次のように要約できる。すなわち学習用動画生成部107は、主カテゴリ動画Vp、および主カテゴリとは異なる副カテゴリに属する動画である副カテゴリ動画Vsの2つの動画を、一方の動画の末尾である結合点において結合し、結合点を含むようにトリミングして学習用動画を生成する。
【0045】
図13は、性能評価部113の動作を示すフローチャートである。ステップS331では性能評価部113は、認識モデル108による予測結果110を読み込む。なお前述のように、性能評価部113はそれぞれの学習用動画VTについて主カテゴリの情報が予め与えられている。続くステップS332では性能評価部113は、変数iを1で初期化する。この変数iは動作カテゴリを示す変数であり、変数iの値を変更することにより動作ラベルAiが示す動作カテゴリが変更される。
【0046】
続くステップS333では、性能評価部113は予測結果110を評価する。具体的には性能評価部113は、認識モデル108による予測が完了した全ての主カテゴリがAiである学習用動画VTに対して、予測結果110が動作ラベルAiと一致するか否かを判断する。続くステップS334では性能評価部113は、認識モデル108の動作ラベルAiに関する評価値ACCiを算出する。評価値ACCiは、0~1の値をとり、次の式2により算出される。
【0047】
ACCi = GOOD_VTi/ALL_VTi ・・・(式2)
【0048】
ただし、GOOD_VTiは主カテゴリがAiである学習動画を認識モデル108が正しくカテゴリAiと判断できた数であり、ALL_VTiは主カテゴリがAiである学習動画の数である。続くステップS335では性能評価部113は、変数iをインクリメント、すなわち変数iの値を「1」だけ増加させてステップS336に進む。ステップS336では性能評価部113は、変数iの値が動作ラベルの総数Cを超えるか否かを判断する。性能評価部113は、変数iの値が動作ラベルの総数Cを超えると判断する場合はステップS337に進み、変数iの値が動作ラベルの総数Cを超えないと判断する場合はステップS333に戻る。ステップS337では性能評価部113は、ステップS334において算出した合計「C」個の評価値、すなわちACC1、ACC2、・・、ACCCを評価結果117として出力し、図13に示す処理を終了する。
【0049】
上述した第1の実施の形態によれば、次の作用効果が得られる。
(1)学習システム1は、行動カテゴリに含まれる主カテゴリに属する動画である主カテゴリ動画、および行動カテゴリに含まれ主カテゴリとは異なる副カテゴリに属する動画である副カテゴリ動画の2つの動画を、一方の動画の末尾である結合点において結合し、結合点を含むようにトリミングして学習用動画を生成する学習用動画生成部107と、学習用動画を用いて、入力される学習用動画に対して主カテゴリを出力する認識モデル108の学習を行う学習部114と、認識モデル108による予測結果110を評価して評価結果117を生成する性能評価部113と、を備える。副カテゴリは、行動カテゴリにおける主カテゴリおよび副カテゴリの危険度、および評価結果117に基づき選択される。そのため、トリミングが不十分な動画であってもリスクが高い行動を認識できる認識モデル108を提供できる。
【0050】
(2)学習システム1は、認識モデル108が決定された主カテゴリに対して誤って判断することが最も多い行動カテゴリを副カテゴリとして決定する副カテゴリ決定部106を備える。そのため、認識モデル10の精度を向上できる。
【0051】
(3)学習システム1は、行動カテゴリにおけるリスクが高いほど高い頻度で行動カテゴリを主カテゴリに決定する主カテゴリ決定部103を備える。そのため、認識モデル108によるリスクが高い行動カテゴリの誤りを減らすことができる。
【0052】
(4)副カテゴリ決定部106は、式1に示したように、行動カテゴリに含まれる各カテゴリのリスクを示すリスク情報104および、評価結果117に基づき副カテゴリを決定する。
【0053】
(5)学習システム1は、過去の統計に基づきリスク情報104を算出するリスク情報生成部118を備える。そのため、ユーザが手動でリスク情報104を生成しなくてもよい。
【0054】
(6)副カテゴリ決定部106は、リスク情報104、評価結果117、および変数γで表される比率パラメータ105に基づき副カテゴリを決定する。比率パラメータ105は、式1に示すようにリスク情報104と、評価結果117とが副カテゴリの決定に与える影響の比率を決定する。そのため、比率パラメータ105の値を適切に設定することでリスクと評価のバランスをとることができる。
【0055】
(7)性能評価部113は、所定のバッチ数ごとに認識モデル108の性能を評価する。
【0056】
(8)認識モデル108の学習方法は、入力される動画に対応するカテゴリを出力する認識モデル108の学習方法であって、行動カテゴリに含まれる主カテゴリに属する動画である主カテゴリ動画、および行動カテゴリに含まれ主カテゴリとは異なる副カテゴリに属する動画である副カテゴリ動画の2つの動画を結合点において結合し、結合点を含むようにトリミングして学習用動画を生成することと、学習用動画を用いて、入力される学習用動画に対して主カテゴリを出力するように認識モデル108の学習を行うことと、認識モデル108による予測結果110を評価して評価結果117を生成することと、を含み、副カテゴリは、行動カテゴリにおける主カテゴリおよび副カテゴリの危険度、および評価結果117に基づき選択される。
【0057】
―第2の実施の形態―
図14図15を参照して、学習システムの第2の実施の形態を説明する。以下の説明では、第1の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第1の実施の形態と同じである。本実施の形態では、主に、学習用動画生成部の処理が第1の実施の形態と異なる。
【0058】
図14は、第2の実施の形態における学習システム1Aの構成図である。学習システム1Aは、第1の実施の形態における学習用動画生成部107の代わりに学習用動画生成部107Aを備える。第2の実施の形態では、学習用動画生成部107Aの動作のみが第1の実施の形態と異なる。
【0059】
図15は、第2の実施の形態における学習用動画生成部107Aの動作を示すフローチャートである。図15は、図11と比較するとステップS323とステップS324の間にステップS323AおよびステップS323Bが追加されている点が異なる。以下では図15における図11との相違点を説明する。特に説明しない点は第1の実施の形態と同様である。
【0060】
ステップS323Aでは学習用動画生成部107Aは、主カテゴリと副カテゴリとの相対難易度dが所定の閾値よりも大きいか否かを判断する。この相対難易度は相対難易度算出部703により算出される。学習用動画生成部107Aは、相対難易度dが所定の閾値THREよりも大きいと判断する場合にはステップS324に進み第1の実施の形態と同様の処理を行う。学習用動画生成部107Aは、相対難易度dが所定の閾値THRE以下であると判断する場合にはステップS323Bに進む。ステップS323Bでは学習用動画生成部107Aは、ステップS322において選択した主カテゴリの動画そのものを学習用動画として出力し、図15に示す処理を終了する。
【0061】
閾値THREの値を大きくすることで、学習に要する演算量および時間を抑制できる。しかし、閾値THREの値が大きすぎる場合には、複数のカテゴリの動画を組みわせた学習用動画が少なくなりすぎて、不完全なトリミングに対する認識モデル108のロバスト性が低下する。そのためオペレータは閾値THREの値を慎重に設定する必要がある。
【0062】
上述した第2の実施の形態によれば、次の作用効果が得られる。
(9)学習用動画生成部107は、認識モデル108の認識性能において、主カテゴリの学習用動画を副カテゴリとして判断する割合が所定の閾値よりも高い場合、すなわち図15のS323Aにおいて肯定判断される場合に学習用動画を生成する。そのため、認識モデル108の性能が十分な場合には学習用動画の生成を省略することで処理負荷を軽減できる。
【0063】
―第3の実施の形態―
図16図18を参照して、学習システムの第3の実施の形態を説明する。以下の説明では、第1の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第1の実施の形態と同じである。本実施の形態では、主に、主カテゴリ決定部の動作が第1の実施の形態と異なる。
【0064】
リスクのある行動はデータの制限によりモデルが学習するのがより困難であるため、学習中、リスクが高い動作ラベルの動画は、リスクが低い動作ラベルの動画よりも頻繁にサンプリングされるようにする。リスクのある行動をより頻繁に学習することで、認識モデル108がリスクの大小にかかわらずバランスよく学習することができる。また、危険なカテゴリに対する不十分なトリミングに対してより頑健になるため望ましいことである。
【0065】
図16は、第3の実施の形態における学習システム1Bの構成図である。本実施の形態では、主カテゴリ決定部103Aの動作が第1の実施の形態と異なる。また、リスク情報104が副カテゴリ決定部106だけでなく主カテゴリ決定部103Aにも提供される。主カテゴリ決定部103Aは、動作ラベル群102だけでなく、リスク情報104および注視パラメータ1801も読み込む。
【0066】
図17は第3の実施の形態における主カテゴリ決定部103Aの動作を示すフローチャートである。まず主カテゴリ決定部103Aは、ステップS351において必要な情報を読み込む。続くステップS352では主カテゴリ決定部103Aは、動作ラベル群102を用いて各カテゴリの動画頻度fiを算出する。動画頻度fiとは、カテゴリAiの動画が分割済動画群101に含まれる比率であり、カテゴリAiの動画の数を分割済動画群101に含まれる動画の総数で除した値である。
【0067】
具体的には主カテゴリ決定部103Aは、カテゴリA1の動画の数を分割済動画群101に含まれる動画の総数で除した値であるf1、カテゴリA2の動画の数を分割済動画群101に含まれる動画の総数で除した値であるf2、・・などを全てのカテゴリに対して算出する。続くステップS353では主カテゴリ決定部103Aは、各カテゴリのサンプリング指数SIiを算出する。サンプリング指数SIiは次の式3により求められる。
【0068】
SIi = POW(Ri、λ)*POW(1/fi、1-λ) ・・・(式3)
【0069】
ただし、式3におけるRiはカテゴリAiのリスク指数、λは注視パラメータ1801、fiはカテゴリAiの動画頻度fiである。続くステップS354では主カテゴリ決定部103Aは、各カテゴリのサンプリング指数SIiの総和である指数総和SI_SUMを算出する。指数総和SI_SUMは全てのカテゴリにおけるサンプリング指数SIiの総和なので次の式4により算出できる。
【0070】
SI_SUM = SI1+SI2+・・・+SIC ・・・(式4)
【0071】
続くステップS355では主カテゴリ決定部103Aは、各カテゴリの正規化サンプリング指数NSIiを算出する。正規化サンプリング指数NIiは、それぞれのサンプリング指数SIiを指数総和SI_SUMで除した値であり、次の式5により算出できる。
【0072】
NSIi = SIi/SI_SUM ・・・(式5)
【0073】
続くステップS356では主カテゴリ決定部103Aは、ステップS355において算出した正規化サンプリング指数に基づき主カテゴリを決定し、図17に示す処理を終了する。
【0074】
上述した第3の実施の形態によれば、次の作用効果が得られる。
(10)主カテゴリ決定部103Aは、行動カテゴリに含まれる各カテゴリのリスク、主カテゴリ動画の母集団である分割済動画群101における行動カテゴリの各カテゴリの存在頻度、および注視パラメータ1801である変数λに基づき主カテゴリを決定する。注視パラメータ1801は、行動カテゴリに含まれる各カテゴリのリスクと、分割済動画群101における行動カテゴリの各カテゴリの存在頻度とが主カテゴリの決定に与える影響の比率を決定する。そのため、各カテゴリのリスクを考慮して主カテゴリを決定できる。
【0075】
(第3の実施の形態の変形例)
第3の実施の形態では、式3においてλで表される注視パラメータ1801は、単一の値であった。しかし注視パラメータ1801はカテゴリごとに異なる値が設定されてもよい。
【0076】
図18は、本変形例における注視パラメータ1801を示す図である。この図に示すように、本変形例ではカテゴリごとに注視パラメータ1801の値が設定される。
【0077】
本変形例では次の作用効果が得られる。
(11)図18に示すように、注視パラメータ1801は行動カテゴリに含まれるカテゴリごとに設定される。そのため、カテゴリごとに最適な注視パラメータ1801の値を設定できる。
【0078】
―第4の実施の形態―
図19を参照して、学習システムの第4の実施の形態を説明する。以下の説明では、第1の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第1の実施の形態と同じである。本実施の形態では、主に、評価用の動画を備える点で、第1の実施の形態と異なる。
【0079】
図19は、第4の実施の形態における学習システム1Cの構成図である。学習システム1Cは、第1の実施の形態における構成に加えて、評価用動画群2201と、評価用ラベル群2202と、認識モデル2203と、評価用予測結果2204とを有する。第1の実施の形態では、性能評価部113は認識モデル108が出力する予測結果110を用いて評価結果117を生成したが、本実施の形態では評価用予測結果2204を用いて評価結果117を生成する。評価用動画群2201は、あらかじめ作成された複合動画である。評価用動画群2201は複合動画の集合体であればよく特に限定はされないが、学習用動画生成部107が作成して認識モデル108に入力する学習用動画の集合体と完全同一になることのみ許容されない。評価用ラベル群2202は、評価用動画群2201に含まれる各動画の主カテゴリの動作ラベルである。
【0080】
本実施の形態では、認識モデル108の生成に利用する学習用動画と、評価用動画群2201に含まれる動画とが異なるので、モデルの生成に用いた動画とは異なる動画を用いてモデルを評価できる。
【0081】
上述した第4の実施の形態によれば、次の作用効果が得られる。
(12)性能評価部113は、認識モデル108が学習に用いた学習用動画とは異なる動画、すなわち評価用動画群2201に含まれる動画を入力として得られた評価用予測結果2204を評価する。そのため、過学習を防止できる。
【0082】
(GUI)
図20を参照して、上述した第1~第4の実施の形態に関するGUI(Graphical User Interface)を説明する。図20は、GUIの初期状態を示している。機械学習処理を開始するためには、必要な情報をGUIに入力する必要がある。機械学習処理の開始に必要な情報は、5つのパートに分けることができる。第1に基本情報、第2にリスク値、第3にカテゴリ決定方法、第4に主カテゴリ動画の決定方法、第5に評価頻度である。GUIはこの5つの部分について順次入力を受け付ける。
【0083】
最初に入力するのは基本情報2301であり、エポック数2302、学習データの格納場所2303、検証データの格納場所2304である。エポック数2302には、認識モデル108の繰り返し学習の停止点が規定され。符号2303と2304には、それぞれのデータセットにアクセス可能な場所が入力される。2番目のリスク値の設定は、マニュアル入力2401と自動計算2402の2つの選択がある。マニュアル入力2401が選択された場合には、手動入力用のダイアログボックスが表示される。また、自動計算2402が選択された場合には自動計算に用いるデータの入力欄、たとえば統計情報119の格納場所の入力を促すダイアログが表示される。
【0084】
3番目のカテゴリ決定方法では、ランダム2501、頻度基準2502、およびリスク基準2503のいずれかが選択される。ランダム2501が選択された場合には、主カテゴリ決定部103は第1の動作である正頻度決定を行う。頻度基準2502が選択された場合には、主カテゴリ決定部103は第2の動作である逆頻度決定を行う。リスク基準2503が選択された場合には、変数λで表される注視パラメータ1801の値を設定するダイアログが表示される。このダイアログでは数値の入力を受け付けてもよいし、値を設定するためのスライダーが表示されてもよい。注視パラメータ1801の値が設定されると、主カテゴリ決定部103は第3の実施の形態の手法で主カテゴリを決定する。
【0085】
4番目の主カテゴリ動画の決定では、通常2601および選択的2602のいずれかが選択される。通常2601が選択された場合には、変数γで表される比率パラメータ105の値を設定するダイアログが表示される。このダイアログでは数値の入力を受け付けてもよいし、値を設定するためのスライダーが表示されてもよい。また、図12に示したL1やL2の値の入力を受け付けてもよい。選択的2602が選択された場合には、変数γで表される比率パラメータ105の値、L1やL2の値、および閾値THREの値を設定するダイアログが表示される。
【0086】
5番目の評価頻度決定では、エポック2701およびバッチ2702のいずれかが選択される。さらに、回数2703も入力される。図20に示す例では、エポック2701が選択され、回数2703には「1」が入力されているので、1エポックごとに性能評価部113による評価、すなわち評価結果117の出力が行われる。これら5つの項目すべてが入力されると、認識モデル108の学習が開始される。
【0087】
(作業者動作認識システム)
図21を参照して、上述した第1~第4の実施の形態において生成された認識モデル108を利用する作業者動作認識システムを説明する。図21は、作業者動作認識システム3000の構成図である。作業者動作認識システム3000は、動画取得部3001と、作業者を検出する検出器3002と、作業者を追跡する追跡器3003と、検出器3002および追跡器3003を用いて作業者が存在する領域である候補領域を抽出する抽出器3004と、認識モデル108と、出力部3005と、を備える。
【0088】
動画取得部3001は、撮影済みの動画ファイルを取得する通信インタフェースや記憶媒体読み取り装置でもよいし、撮像素子を含む動画撮影装置、たとえばWebカメラでもよい。検出器3002、追跡器3003、および抽出器3004は、公知の構成を利用でき、たとえば図8に示した演算装置40のようにCPU41、ROM42、およびRAM43により実現される。出力部3005は、通信インタフェース、液晶ディスプレイなどの映像出力装置、または映像出力装置に映像信号を出力するディスプレイアダプタである。
【0089】
動画取得部3001が取得した動画は検出器3002に送信される。検出器3002は、入力された動画から作業者、すなわち人間を検出してその位置情報を追跡器3003に出力する。追跡器3003は、検出器3002から出力された位置情報を初期値として利用し、動画における作業者の位置を追跡する。抽出器3004は、検出器3002の出力および追跡器3003が追跡する作業者の位置を用いて、動画の空間領域を切り出して認識モデル108に出力する。認識モデル108は、抽出器3004が切り出した動画の空間領域を対象として認識処理を行い、行動カテゴリを出力する。出力部3005は、認識モデル108が出力する行動カテゴリの情報を出力する。
【0090】
なお検出器3002および追跡器3003は、作業者の全身を検出および追跡する代わりに、作業者の手だけを検出および追跡してもよい。この場合には、抽出器3004は追跡された手の位置に基づき作業者の全身を含む領域を抽出する。すなわちこの場合でも抽出器3004の出力は変化しない。
【0091】
以上説明した作業者動作認識システム3000は、次の作用効果を奏する。
(13)作業者動作認識システム3000は、学習システム1により生成された認識モデル108と、作業者を検出する検出器3002と、作業者を追跡する追跡器3003と、検出器3002および追跡器3003を用いて作業者が存在する領域である候補領域を抽出する抽出器3004と、を備える。認識モデル108は、候補領域の映像を入力とする。そのため作業者動作認識システム3000は、リスクが高い行動を認識できる。
【0092】
上述した各実施の形態および変形例において、機能ブロックの構成は一例に過ぎない。別々の機能ブロックとして示したいくつかの機能構成を一体に構成してもよいし、1つの機能ブロック図で表した構成を2以上の機能に分割してもよい。また各機能ブロックが有する機能の一部を他の機能ブロックが備える構成としてもよい。
【0093】
上述した各実施の形態および変形例において、プログラムは不図示のROM42に格納されるとしたが、プログラムは不図示の不揮発性記憶装置に格納されていてもよい。また、演算装置40が不図示の入出力インタフェースを備え、必要なときに入出力インタフェースと演算装置40が利用可能な媒体を介して、他の装置からプログラムが読み込まれてもよい。ここで媒体とは、例えば入出力インタフェースに着脱可能な記憶媒体、または通信媒体、すなわち有線、無線、光などのネットワーク、または当該ネットワークを伝搬する搬送波やディジタル信号、を指す。また、プログラムにより実現される機能の一部または全部がハードウエア回路やFPGAにより実現されてもよい。
【0094】
上述した各実施の形態および変形例は、それぞれ組み合わせてもよい。上記では、種々の実施の形態および変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。
【符号の説明】
【0095】
1、1A、1B、1C:学習システム
101 :分割済動画群
102 :動作ラベル群
103、103A :主カテゴリ決定部
104 :リスク情報
106 :副カテゴリ決定部
107、107A :学習用動画生成部
108 :認識モデル
113 :性能評価部
114 :学習部
117 :評価結果
118 :リスク情報生成部
119 :統計情報
703 :相対難易度算出部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21