特許7409731 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＡＣＥＳの特許一覧

特許7409731テキスト動画分類モデルを用いた事象判定方法、判定装置、及び判定プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2023-12-25

(45)【発行日】2024-01-09

(54)【発明の名称】テキスト動画分類モデルを用いた事象判定方法、判定装置、及び判定プログラム

(51)【国際特許分類】

G06V 40/20 20220101AFI20231226BHJP

G06T 7/00 20170101ALI20231226BHJP

G06T 7/20 20170101ALI20231226BHJP

【ＦＩ】

G06V40/20

G06T7/00 350B

G06T7/20 300Z

【請求項の数】 8

(21)【出願番号】P 2023110348

(22)【出願日】2023-07-04

【審査請求日】2023-07-10

【早期審査対象出願】

(73)【特許権者】

【識別番号】520008533

【氏名又は名称】株式会社ＡＣＥＳ

(74)【代理人】

【識別番号】110002181

【氏名又は名称】弁理士法人ＩＰ－ＦＯＣＵＳ

(74)【代理人】

【識別番号】100208959

【弁理士】

【氏名又は名称】島田敏史

(72)【発明者】

【氏名】小林真輝人

(72)【発明者】

【氏名】宮路雄太

(72)【発明者】

【氏名】片岡麻輝

(72)【発明者】

【氏名】久保静真

【審査官】秦野孝一郎

(56)【参考文献】

【文献】特開２０２２－１８１３１９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ４０／２０

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｆ１６／００

(57)【特許請求の範囲】

【請求項1】

動画データ内における検出したい事象である検出事象の有無を判定する事象判定方法であって、
前記検出事象に関連する複数のキーワードを作成するキーワード作成ステップと、
前記動画データ及び前記キーワードを、動画データとテキストデータによる事前学習がなされたテキスト動画分類モデルに入力し、出力として前記動画データの所定時間毎の前記キーワードの存在確率を時系列で示した時系列確率データを取得するキーワード確率算定ステップと、
前記時系列確率データから前記動画データ内における前記検出事象の有無を判定する時系列判定ステップを備えていることを特徴とする事象判定方法。

【請求項2】

請求項１に記載の事象判定方法であって、
時系列判定ステップは、前記時系列確率データを、前記検出事象と前記キーワードを用いて事前学習がなされた時系列解析モデルに入力し、出力として前記動画データ内における前記検出事象の有無を判定することを特徴とする事象判定方法。

【請求項3】

請求項１に記載の事象判定方法であって、
前記動画データは、前記キーワード確率算定ステップに先だって、前記検出事象の判定対象となる検出対象についてトラッキング及びクロッピングする前処理が行われることを特徴とする事象判定方法。

【請求項4】

請求項１に記載の事象判定方法であって、
前記キーワード作成ステップにおいて、前記検出事象を示す事象ラベルを前記キーワードとして作成し、前記キーワード確率算定ステップ及び前記時系列判定ステップを行った結果を第１判定結果とし、
前記事象ラベルを前記キーワードに替えて、或いは前記事象ラベルに前記キーワードを追加して、再度前記キーワード作成ステップ、前記キーワード確率算定ステップ及び前記時系列判定ステップを行った結果を第ｎ判定結果とし（ｎは２以上の整数）、
第１乃至第ｎ判定結果から導き出されたキーワードを前記検出事象用の推奨キーワードとすることを特徴とする事象判定方法。

【請求項5】

請求項２に記載の事象判定方法であって、
前記時系列解析モデルにおける事前学習は、前記検出事象が撮影された動画データである事象撮影データと、前記キーワードを前記テキスト動画分類モデルに入力し、出力として前記事象撮影データの所定時間毎の前記キーワードの存在確率を学習用時系列確率データとして取得すると共に、前記検出事象を示す事象ラベルと、前記学習用時系列確率データを教師データとする時系列モデル学習ステップであることを特徴とする事象判定方法。

【請求項6】

請求項１に記載の事象判定方法であって、
前記キーワード作成ステップにおいて、前記キーワードが前記テキスト動画分類モデルにおける前記テキストデータから選択されることを特徴とする事象判定方法。

【請求項7】

動画データ内における検出したい事象である検出事象の有無を判定する事象判定装置であって、
判定対象である動画データと、前記検出事象に関連する複数のキーワードを受け付ける入力手段と、
動画データとテキストデータによる事前学習がなされたテキスト動画分類モデル、及び前記検出事象と前記キーワードを用いて事前学習がなされた時系列解析モデルに接続可能な接続手段と、
少なくとも前記入力手段と、前記時系列解析モデルの判定結果を表示する表示手段と、
前記入力手段、前記表示手段、及び前記接続手段を制御する制御手段とを備え、
前記制御手段は、前記入力手段により前記動画データ及び前記キーワードが入力された際に、前記動画データ及び前記キーワードを前記接続手段を介して前記時系列解析モデルに入力し、前記動画データの所定時間毎の前記キーワードの存在確率を時系列で示した時系列確率データを取得して、前記時系列確率データを前記接続手段を介して前記時系列解析モデルに入力し、前記動画データ内における前記検出事象の有無の判定を前記表示手段に表示させることを特徴とする事象判定装置。

【請求項8】

コンピュータを用いて請求項１～６の何れか１項に記載の事象判定方法を実行するための事象判定プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、動画データについて、検出したい検出事象が存在するか否かをテキスト動画分類モデルを用いて判定する方法、判定装置、及び判定プログラムに関する。

【背景技術】

【0002】

従来、カメラ等によって得られた動画データから、転倒等の行動を検知する手法が知られている。例えば、特許文献１に記載された姿勢判定装置は、マイクロバス等の車両に設けられたカメラで、車両に乗車している乗員の姿勢を判定する装置であり、動画データから検出される乗員の頭部や肩部等の骨格点の位置に基づいた特徴量を算出し、姿勢判定確率演算部により、これらの特徴量を機械学習により生成された推論モデルに入力することにより、乗員が転倒姿勢である確率等を演算している。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０２２－１３４０８８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１に記載された姿勢判定装置のように、転倒姿勢のような定義が明確であり、既存の特徴量から規則的に判定が可能な場合は、従来の推論モデルを利用した判定が可能であるが、例えば、「ふらつく」などの定義が難しい事象については、従来の推論モデルでは判定が困難である。

【0005】

このような定義の難しい事象について推論モデルを用いて判定を行う場合は、事象に応じた教師データを準備することが必要になるが、一般にモデルの作成には大量の教師データが必要であり、検出したい事象に関する大量のデータを収集することは困難である場合が多く存在する。また、認識したい事象を増やす場合には、その都度、その事象の教師データを収集し、推論モデルに学習させる必要がある。

【0006】

本発明は、上記課題に鑑み、定義が不明確で、既存の特徴量から規則的な判定が困難な事象についても、大量の教師データを必要とすることなく、動画データにおけるその事象の有無を判定することができる事象判定方法、事象判定装置、及び事象判定プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

上記目的を達成するために、本発明の事象判定方法は、動画データ内における検出したい事象である検出事象の有無を判定する事象判定方法であって、前記検出事象に関連する複数のキーワードを作成するキーワード作成ステップと、前記動画データ及び前記キーワードを、動画データとテキストデータによる事前学習がなされたテキスト動画分類モデルに入力し、出力として前記動画データの所定時間毎の前記キーワードの存在確率を時系列で示した時系列確率データを取得するキーワード確率算定ステップと、前記時系列確率データから前記動画データ内における前記検出事象の有無を判定する時系列判定ステップを備えていることを特徴とする。

【0008】

本発明の事象判定方法は、動画データ内に検出したい事象があるか否かの判定のために、まず、検出事象に関連する複数のキーワードと、事前学習済みのテキスト動画分類モデルを用いる。このテキスト動画分類モデルによって、動画データの所定時間毎のキーワードの存在確率を時系列で示した時系列確率データが取得される。次に、時系列判定ステップにおいて、時系列確率データから動画データ内における検出事象の有無を判定する。

【0009】

本発明の事象判定方法では、検出事象を複数のキーワードで特定し、その複数のキーワードの時系列の確率を用いて事象の有無を判定するため、定義の難しい事象についても柔軟に判定することが可能となる。また、テキストと動画の関連を広範に獲得したテキスト動画分類モデルを用いて抽出した時系列確率データを用いることで、時系列確率データから動画データ内における検出事象の有無の判定が容易になる。ここで、テキスト動画分類モデルとは、テキストで記述されたキーワードで事象を指定することにより、事象を分類することが可能なモデルをいう。このテキスト動画分類モデルにより、分類の事象に関する大量の動画データの学習が不要となる。なお、キーワードはプロンプトと呼ばれることもある。

【0010】

本発明の事象判定方法において、時系列判定ステップは、前記時系列確率データを、前記検出事象と前記キーワードを用いて事前学習がなされた時系列解析モデルに入力し、出力として前記動画データ内における前記検出事象の有無を判定してもよい。

【0011】

当該構成により、時系列判定ステップにおける判定が容易になると共に、時系列解析モデルの事前学習に時系列確率データを用いることができるため、教師データを必要最小限にすることができる。また、テキスト動画分類モデルを検出事象の関連データを用いて再学習させても良い。ここで、時系列解析モデルとは、時間の経過に伴い変化するデータを分類することが可能なモデルを言う。

【0012】

本発明の事象判定方法においては、前記動画データについて、前記キーワード確率算定ステップに先だって、前記検出事象の判定対象となる検出対象についてトラッキング及びクロッピングを行う前処理を行ってもよい。当該構成により、動画データにおいて、事象を検出したい人物や物をトラッキング（追跡）し、クロッピング（切り抜き）が行われるので、これらの人物や物の動きを確実に把握することができ、判定の精度が向上する。

【0013】

本発明の事象判定方法においては、前記キーワード作成ステップにおいて、前記検出事象を示す事象ラベルを前記キーワードとして作成し、前記キーワード確率算定ステップ及び前記時系列判定ステップを行った結果を第１判定結果とし、前記事象ラベルを前記キーワードに替えて、或いは前記事象ラベルに前記キーワードを追加して、再度前記キーワード作成ステップ、前記キーワード確率算定ステップ及び前記時系列判定ステップを行った結果を第ｎ判定結果とし（ｎは２以上の整数）、第１乃至第ｎ判定結果から導き出されたキーワードを前記検出事象用の推奨キーワードとしてもよい。

【0014】

キーワード作成ステップにおいて、このような手順を行うことにより、テキスト動画分類モデル及び時系列解析モデルを用いて、検出事象を検出するための適切なキーワードを作成することができる。

【0015】

また、本発明の事象判定方法においては、前記時系列解析モデルにおける事前学習は、前記検出事象が撮影された動画データである事象撮影データと、前記キーワードを前記テキスト動画分類モデルに入力し、出力として前記事象撮影データの所定時間毎の前記キーワードの存在確率を学習用時系列確率データとして取得すると共に、前記検出事象を示す事象ラベルと、前記学習用時系列確率データを教師データとする時系列モデル学習ステップであってもよい。

【0016】

時系列解析モデルにおける事前学習をこのような時系列モデル学習ステップとすることで、検出事象を示す事象ラベルと各キーワードの時系列の存在確率が関係づけられるため、検出事象の検出の精度が向上する。

【0017】

また、本発明の事象判定方法においては、前記キーワード作成ステップにおいて、前記キーワードが前記テキスト動画分類モデルにおける前記テキストデータから選択されてもよい。当該構成により、キーワード確率算定ステップにおいて、各キーワードに確実に存在確率を求めることができる。

【0018】

また、上記目的を達成するために、本発明の事象判定装置は、動画データ内における検出したい事象である検出事象の有無を判定する事象判定装置であって、判定対象である動画データと、前記検出事象に関連する複数のキーワードを受け付ける入力手段と、動画データとテキストデータによる事前学習がなされたテキスト動画分類モデル、及び前記検出事象と前記キーワードを用いて事前学習がなされた時系列解析モデルに接続可能な接続手段と、少なくとも前記入力手段と、前記時系列解析モデルの判定結果を表示する表示手段と、前記入力手段、前記表示手段、及び前記接続手段を制御する制御手段とを備え、前記制御手段は、前記入力手段により前記動画データ及び前記キーワードが入力された際に、前記動画データ及び前記キーワードを前記接続手段を介して前記時系列解析モデルに入力し、前記動画データの所定時間毎の前記キーワードの存在確率を時系列で示した時系列確率データを取得して、前記時系列確率データを前記接続手段を介して前記時系列解析モデルに入力し、前記動画データ内における前記検出事象の有無の判定を前記表示手段に表示させることを特徴とする。

【0019】

また、本発明の事象判定プログラムは、コンピュータを用いて上記各事象判定方法を実行するためのプログラムである。

【発明の効果】

【0020】

本発明によれば、定義が難しい事象についても、大量の教師データを必要とせず、動画データにおけるその事象の有無を判定することができる事象判定方法、装置及びプログラムを提供することができる。

【図面の簡単な説明】

【0021】

【図1】本発明の実施形態の一例である事象判別装置の構成を示す説明図。

【図2】本実施形態の事象判別装置における入力画面を示す説明図。

【図3】本実施形態の事象判別装置における学習画面を示す説明図。

【図4】本実施形態の事象判別装置における「躓き」の判定結果画面を示す説明図。

【図5】本実施形態の事象判別装置におけるメニュー画面を示す説明図。

【図6】（Ａ）～（Ｃ）は本実施形態の事象判別装置の判定対象である動画データの一例を示す説明図。

【図7】動画データにおいて、作業員が躓いた際の作業員のシルエットを模式化した説明図。

【図8】本実施形態の事象判別装置における「ふらつき」の判定結果画面を示す説明図。

【図9】動画データにおいて、作業員がふらついた際の作業員のシルエットを模式化した説明図。

【発明を実施するための形態】

【0022】

次に、図１～図９を参照して、本発明の実施形態である事象判定装置、事象判定方法、及び事象判定プログラムについて説明する。本実施形態の事象判定装置１は、コンピュータを主要構成としており、コンピュータ本体２と、ディスプレイ３と、マウス４及びキーボード５等を備えている。事象判定装置１は、インターネット等のネットワーク６に接続されており、ネットワーク６を介してテキスト動画分類モデル７及び時系列解析モデル８に接続可能となっている。

【0023】

コンピュータ本体２は、ＣＰＵ（中央演算処理装置）又はＧＰＵ（画像処理装置）等のプロセッサ、ハードディスク、メモリ等の記憶手段、及び各種ネットワークとの接続手段等を備えたコンピュータシステム（いずれも図示省略）を備えている。コンピュータ本体２の記憶手段には、コンピュータを本実施形態の事象判定装置１として事象判定方法を実行するための事象判定プログラム及び各種データ等が記憶されている。

【0024】

本実施形態における事象判定プログラムは、ＣＰＵ等によって実行され、以下に説明する各種の処理が行われる。なお、コンピュータシステムには、いわゆるクラウドコンピューティングが含まれる。また、コンピュータプログラムは、事象判定装置１内に記憶されたプログラムのみならず、事象判定装置１とは別個の場所に設置されたサーバ内に記憶されたプログラム、或いは、ＡＰＩ（Application Programming Interface）連携を利用したプログラムも含む概念である。

【0025】

次に、事象判定装置１の機能的構成について、図１を参照して説明する。事象判定装置１は、その機能部として、入力手段９と、表示手段１０と、接続手段１１と、制御手段１２を備えている。また、事象判定装置１は、接続手段１１によって事前学習済みのテキスト動画分類モデル７と、時系列解析モデル８に接続が可能である。

【0026】

本実施形態において、入力手段９は、図２に示す入力画面２０を備えている。入力画面２０は、判定対象である動画データＶを入力可能な動画入力部２１と、検出したい行動や状態等の事象である検出事象を入力可能な検出事象入力部２２と、判定に利用するテキスト動画分類モデル７を選択するための分類モデル入力部２３と、検出したい事象に関連するキーワードを受け付けるキーワード入力部２４と、動画入力部２１に入力された動画データＶと作成されたキーワードを入力してテキスト動画分類モデル７の出力を得る確率算定ボタン２５と、テキスト動画分類モデル７の出力を表示させる算定結果表示部２６を備えている。

【0027】

動画入力部２１には、検出したい動画をドラッグアンドドロップで入力するか、参照ボタン２１ａをクリックして、事象判定装置１に記憶されているファイルのパスを指定するか、或いはネットワーク上で公開されている動画のＵＲＬを入力する等の操作により、検出したい動画データＶを入力する。

【0028】

検出事象入力部２２には、検出したい事象、例えば「躓き」や「ふらつき」等の行動を入力する。この場合、参照ボタン２２ａをクリックすることにより、過去に判定を行った事象をポップアップメニュー等で表示させ、選択できるようにしてもよい。

【0029】

分類モデル入力部２３には、判定において利用するテキスト動画分類モデル７を入力する。この分類モデル入力部２３においても、参照ボタン２３ａをクリックすることにより、利用可能なテキスト動画分類モデル７がポップアップメニュー等で表示され、任意のテキスト動画分類モデル７を選択できるようにしてもよい。

【0030】

キーワード入力部２４には、検出したい行動に関連するキーワードを作成して入力する。キーワード入力部２４には、操作担当者が任意にキーワードを入力してもよい。又は、判定済呼出ボタン２７をクリックして、検出したい事象について判定済のキーワードがある場合に、そのキーワードを表示させて操作担当者が選択してもよい。或いは、モデル呼出ボタン２８をクリックして、判定に利用するテキスト動画分類モデル７において分類に使用されているテキストを表示させ、選択することも可能である。

【0031】

動画入力部２１、検出事象入力部２２、分類モデル入力部２３、及びキーワード入力部２４にそれぞれ必要事項を入力した後、確率算定ボタン２５をクリックすると、算定結果表示部２６に指定した動画データＶにおける各キーワードの確率が算定されて時系列確率データ２９としてグラフ状に表示される。

【0032】

また、入力手段９は、図３に示す学習画面３０を備えている。学習画面３０は、時系列解析モデル８の学習を行うための画面であり、学習を実施する時系列解析モデル８を選択する時系列モデル入力部３１と、学習したい事象である事象ラベルを入力する事象ラベル入力部３２と、教師データとなる学習用時系列確率データを入力可能な教師データ入力部３３と、学習対象である学習用時系列確率データを入力する学習データ入力部３４と、学習を行う際にクリックする学習ボタン３５を備えている。

【0033】

また、これらの入力部には、それぞれ入力を補助するための参照ボタン３１ａ～３４ａが設けられている。それぞれの入力部及び参照ボタンは、図２における入力画面２０の各構成と同様の構成となっているので、詳細な説明は省略する。

【0034】

図４は、後述する図５のメニュー画面５０において事象判定ボタン５３がクリックされた結果表示される判定結果画面４０を表している。判定結果画面４０では、検出した動画の名称或いは保存場所等を示す動画表示部４１と、検出した事象を示す事象ラベル表示部４２と、時系列解析モデル８の出力としての判定結果が表示される判定結果表示部４３を備えている。判定結果画面４０においては、判定結果表示部４３に表示されたグラフがどのキーワードを示すかを表す線種が表示されている。実際の表示では、この線種は線の色を変えて表示がなされている。

【0035】

本実施形態における表示手段１０は、入力手段９である入力画面２０、学習画面３０、及び判定結果画面４０等を事象判定装置１のディスプレイ３や、他のタブレット端末等の他の表示端末に表示させる機能部である。

【0036】

本実施形態における接続手段１１は、事象判定装置１と、動画データとテキストデータによる事前学習がなされたテキスト動画分類モデル７、及び検出事象とキーワードを用いて事前学習がなされる時系列解析モデル８を接続し、判定処理において両モデルを利用するための機能部である。

【0037】

本実施形態における制御手段１２は、入力手段９、表示手段１０、及び接続手段１１を制御する機能部である。制御手段１２は、コンピュータ本体２を始めとするハードウェアと、事象判定プログラムを含む複数のプログラムによって実現される。

【0038】

本実施形態の事象判定装置１において利用可能なテキスト動画分類モデル７としては、ＯｐｅｎＡＩ社が公開しているＸＣＬＩＰが挙げられる。このＸＣＬＩＰは、ゼロショットで言語と紐付けて画像分類することが可能な大規模画像分類モデルであるＣＬＩＰを動画に拡張したモデルであり、次の文献に詳細が記載されている。（Expanding Language-Image Pretrained Models for General Video Recognition/ 4 Aug 2022/ Bolin Ni, Houwen Peng他。https://arxiv.org/pdf/2208.02816.pdf）。

【0039】

テキスト動画分類モデル７としては、このＸＣＬＩＰのみならず、テキストで記述されたキーワードで事象を指定することにより、事象を分類することが可能なモデルであれば良い。例えば、ＸＣＬＩＰは、インターネット等で公開されている画像とテキストを抽出した大量のデータを用いて、画像とテキスト（記述文）に関する対照学習を実施した言語画像事前学習モデルを動画認識に拡張したモデルであるが、このようなモデルには限られない。大量のテキストデータ及び動画（画像を含む）を使ってトレーニングされた自然言語処理のモデル等、様々なモデルを用いることができる。このようなモデルにより、テキストと動画間の類似性の推定をゼロショット学習（学習していない未知のものを予測する技術）で行うことが可能となる。

【0040】

また、本実施形態の事象判定装置１において利用可能な時系列解析モデル８としては、決定木アンサンブル手法であるランダムフォレストを時系列データに適用できるようにしたＴＳＦと呼ばれるモデルを挙げることができる。このＴＳＦの詳細については、次の文献に記載がある。（A Time Series Forest for Classification and Feature Extraction/ 18 Feb 2013/ Houtao Deng他。https://arxiv.org/pdf/1302.2277.pdf）。

【0041】

この時系列解析モデル８としては、ＴＳＦのみならず、深層学習モデルや複数のモデルを組み合わせるアンサンブルモデル等、時系列データに対して分類が可能なモデルを使用することができる。

【0042】

次に、本実施形態の事象判定方法について、各図面を参照して説明する。本実施形態の事象判定方法は、キーワード作成ステップ、キーワード確率算定ステップ、時系列モデル学習ステップ、及び時系列判定ステップの各ステップからなる。

【0043】

本実施形態では、図６に示すように、作業員Ａが通行する作業現場を定点カメラで撮影した動画データＶから、作業員Ａにヒヤリハットとなる事象が発生したか否かを判定する。ヒヤリハットに該当する行為としては、事故にはなっていないが潜在的に事故発生の要因となる「躓き」や「ふらつき」等の行為が該当する。このような行為は、「転倒」等の明確な行為ではなく、曖昧な概念を有する行為となっている。

【0044】

本実施形態の事象判定方法では、事象判定装置１を立ち上げて、事象判定プログラムを起動させると、図５に示すメニュー画面５０が表示される。メニュー画面５０の動画・キーワード入力ボタン５１をクリックすると、図２に示す入力画面２０が表示される。

【0045】

入力画面２０において、キーワード作成ステップを実行する。このキーワード作成ステップは、検出事象に関連する複数のキーワードを作成するステップである。検出事象は、判定希望者が検出を行いたい事象であり、例えば、作業員Ａの作業中の行為のうち、ヒヤリハットに該当する行為等が挙げられる。

【0046】

キーワード作成ステップでは、曖昧な概念を有する検出事象について、関連する複数のキーワードを作成する。このキーワードは、検出事象を特定するためのキーワードであり、検出事象を複数の要素に分けたものとすることができる。例えば、図２に示すように、検出事象が人の「躓き」の場合、転倒、起立、歩行、横たわる、屈むの５項目のキーワードを挙げることができる。

【0047】

このキーワードの作成は、操作担当者が任意に作成する場合、操作担当者がキーワードとしたい文言をキーボード５からキーワード入力部２４に入力することができる。このとき、ＬＬＭ（Large Language Models）を活用してキーワードを作成してもよい。また、検出事象について既に判定を行った実績がある場合は、判定済呼出ボタン２７をクリックすることで、実績のあるキーワードを利用することが可能となる。

【0048】

一方で、今回判定を行う検出事象について、過去に判定を行った実績がない場合であっても、モデル呼出ボタン２８をクリックすることで、分類モデル入力部２３において入力したテキスト動画分類モデル７で分類に使用されているテキストを表示させることができる。これにより、確実に存在確率を算出することができるキーワードを作成することができる。

【0049】

次に、キーワード確率算定ステップについて説明する。キーワード確率算定ステップでは、検出事象に対して複数のキーワードを関連付け、検出したい動画内におけるテキスト動画分類モデル７に入力し、出力として動画データＶの所定時間毎の各キーワードの存在確率を時系列で示した時系列確率データ２９を取得する。

【0050】

具体的には、図２の入力画面２０において、動画入力部２１、検出事象入力部２２、分類モデル入力部２３、及びキーワード入力部２４にそれぞれ必要事項を入力した後、確率算定ボタン２５をクリックする。当該操作により、制御手段１２が接続手段１１を介して、入力された動画データＶとキーワードをテキスト動画分類モデル７に入力し、その出力として、算定結果表示部２６に指定した動画データＶにおける各キーワードの確率が算定されて時系列データとしてグラフ状に表示される。

【0051】

なお、本実施形態においては、動画データＶの前処理として、図６（Ａ）～（Ｃ）に示すように、キーワード確率算定ステップに先だって作業現場における検出対象である作業員Ａを検出してトラッキングを行い、図７及び図９に示すように、作業員Ａの動画のクロッピングを行っている。１つの動画データＶに作業員Ａが複数存在している場合は、それぞれの作業員Ａ毎に動画がクロッピングされるようになっている。

【0052】

次に、メニュー画面５０に戻り、時系列モデル学習ボタン５２をクリックして、時系列モデル学習ステップを実行する。時系列モデル学習ボタン５２をクリックすると、図３に示す学習画面３０が表示される。

【0053】

時系列モデル学習ステップでは、学習画面３０において、時系列モデル入力部３１に学習を実施する時系列解析モデル８を入力する。図３では、この時系列解析モデル８の例として、ＴＳＦを入力している。また、事象ラベル入力部３２に学習したい事象である事象ラベルとして「躓き」を入力し、教師データ入力部３３に教師データとなる事象撮影データを入力する。

【0054】

教師データとなる事象撮影データは、事象ラベルである「躓き」を再現した動画データであり、事象撮影データのどの位置（時間）で躓きが発生しているかが事象撮影データ内に保存されており、いわゆるアノテーションが行われている。本実施形態では、図３に示すように、事象判定装置１のコンピュータ本体２に記憶されている動画データを入力している。

【0055】

また、時系列モデル学習ステップでは、学習画面３０において、学習データ入力部３４に学習の対象となる学習用時系列確率データを入力する。図３では、学習用時系列確率データの例として、事象判定装置１のコンピュータ本体２に記憶されている学習用時系列確率データを入力している。本実施形態における学習用時系列確率データは、予め事象ラベルである「躓き」を再現した事象撮影データをキーワードと共にテキスト動画分類モデル７に入力し、その出力である学習用時系列確率データを学習データとしている。

【0056】

このように、学習画面３０において必要な情報を入力した後、学習ボタン３５をクリックすることで、時系列解析モデル８であるＴＦＳの学習が行われる。事象ラベルは、動画データＶ内における検出したい事象であるため、当該学習により、その事象ラベルに関する事象と各キーワードの確率との関係が学習される。

【0057】

次に、時系列判定ステップについて説明する。時系列モデル学習ステップの実施後、メニュー画面５０に戻り、事象判定ボタン５３をクリックして、時系列判定ステップを実行する。事象判定ボタン５３をクリックすると、図４に示す判定結果画面４０が表示される。

【0058】

図４は、検出したい事象である検出事象が「躓き」である場合の判定結果を示している。判定結果表示部４３において、時系列確率データ２９の下方に判定結果が表示されている。白抜きの部分は躓きが発生していないことを示しており、黒塗りの部分は躓きが発生していることを示している。

【0059】

ここで、図４の判定結果表示部４３に表示された時系列確率データ２９における作業員Ａの状態を動画データＶで確認すると、図７の状態となっている。図７において、（１）と（２）、及び（５）では躓きは発生しておらず、（３）及び（４）において躓きが発生している。

【0060】

図７の（３）及び（４）については、作業員Ａは体勢を崩しているが、転倒しているわけではなく、屈んでいる状態でもない。よって、従来の推論モデルによる判定では躓いていることの判定が困難である。本実施形態では、検出事象を複数のキーワードの確率を用いて判定するため、定義が難しい事象であっても、正確に判定を行うことが可能となる。

【0061】

図８は、検出したい事象である検出事象が「ふらつき」である場合の判定結果を示している。判定結果表示部４３において、時系列確率データ２９の下方に判定結果が表示されている。白抜きの部分はふらつきが発生していないことを示しており、黒塗りの部分はふらつきが発生していることを示している。

【0062】

ここで、図８の判定結果表示部４３に表示された時系列確率データ２９における作業員Ａの状態を動画データＶで確認すると、図９の状態となっている。図９において、（１）と（４）及び（５）では躓きは発生しておらず、（２）及び（３）において躓きが発生している。

【0063】

検出事象が「ふらつき」の場合、「躓き」の場合に比べても正常な歩行状態との差が小さくなっているが、本実施形態の事象判定方法によれば、高い確率で「ふらつき」の有無を判定することができた。

【0064】

次に、キーワード作成ステップの他の実施形態について説明する。図２に示す入力画面２０において、キーワード入力部２４に、事象ラベルである「躓き」をキーワードとして入力し、キーワード確率算定ステップ及び時系列判定ステップを行って第１判定結果を得る。判定結果は、図４に示す判定結果画面４０において、キーワードが「躓き」のみの判定結果となる。

【0065】

次に、図２に示す入力画面２０に戻り、キーワード入力部２４に「躓き」に替えて他のキーワードを入力するか、「躓き」に他のキーワードを追加し、キーワード確率算定ステップ及び時系列判定ステップを行って第２判定結果を導き出す。この操作をｎ回（ｎは２以上の整数）行って判定結果を検証し、判定の確率が高いキーワードを検出事象用の推奨キーワードとする。この第１判定結果乃至第ｎ判定結果を検証することで、キーワード作成ステップの際に、判定の確率の高いキーワードを作成することが可能となる。

【0066】

なお、上記実施形態において、事象判定装置１をデスクトップ型のコンピュータで実現しているが、これに限らず、タブレット端末、或いはスマートフォン等の各種デバイスで実現することも可能である。また、上記実施形態において、事象判定装置１は、ネットワーク６を介してテキスト動画分類モデル７及び時系列解析モデル８に接続可能としているが、これに限らず、これらのモデルをコンピュータ本体２の記憶手段に記憶させていてもよい。

【0067】

また、上記実施形態においては、キーワード確率算定ステップを行った後に時系列モデル学習ステップを行っているが、これらのステップは順不同で行うことができる。また、テキスト動画分類モデル７は、ＸＣＬＩＰを用いているが、テキストと動画が分類されたモデルであれば、他の公知のモデルを用いてもよい。同様に、時系列解析モデル８についても、ＴＳＦ以外の公知の時系列解析モデルを用いてもよい。さらに、本発明の事象判定プログラムは、コンピュータ内に記憶された状態のみならず、ＣＤロムやＤＶＤロム等の記憶媒体に記憶された状態であってもよい。

【0068】

また、本実施形態では、時系列判定ステップにおいて時系列解析モデル８を用いているが、これに限らず、時系列確率データの各キーワードの確率にそれぞれ閾値を設け、各キーワードについて演算された確率と当該閾値との関係を元に検出事象の有無を判定してもよい。この場合、各キーワードの閾値は、データテーブル等に記憶しておいてもよく、判定の際に操作担当者が設定してもよい。

【0069】

また、本実施形態において、図２における検出事象入力部２２には１つの事象のみを入力しているが、これに限らず、複数の事象（例えば躓き、ふらつき、又は転倒等）を入力して、判定結果としてそれぞれの事象が発生しているか否かを判定してもよい。このように、複数の事象を同時に判定することで、判定の効率を向上させることができる。

【0070】

また、本実施形態において、検出事象として「ヒヤリハット」、具体的には「躓き」や「ふらつき」等を例にして説明したが、これに限らず、単純な「転倒」等の事象を検出事象とした場合であっても、当然に事象を正確に判定することができる。

【符号の説明】

【0071】

１…事象判定装置
２…コンピュータ本体
３…ディスプレイ
４…マウス
５…キーボード
６…ネットワーク
７…テキスト動画分類モデル
８…時系列解析モデル
９…入力手段
１０…表示手段
１１…接続手段
１２…制御手段
２０…入力画面
３０…学習画面
４０…判定結果画面
５０…メニュー画面

【要約】（修正有）

【課題】定義が難しい事象についても、大量の教師データを必要とすることなく、動画データにおけるその事象の有無を判定できる事象判定方法、装置、及びプログラムを提供する。
【解決手段】ネットワークを介してテキスト動画分類モデル及び時系列解析モデルに接続されている事象判定装置は、まず、入力手段が備える入力画面２０において、判定を行う動画と、検出したい事象と、利用するテキスト動画分類モデルを指定し、検出事象に関するキーワードを作成し、動画において、このキーワードの存在確率を算定して時系列確率データ２９を得る。次に、この時系列確率データ２９を、検出事象を再現した動画とキーワードで学習済の時系列解析モデルで解析することにより、躓きやふらつき等の定義が曖昧で推定が難しい事象の有無を判定する。
【選択図】図２