(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-12-25
(45)【発行日】2024-01-09
(54)【発明の名称】テキスト動画分類モデルを用いた事象判定方法、判定装置、及び判定プログラム
(51)【国際特許分類】
G06V 40/20 20220101AFI20231226BHJP
G06T 7/00 20170101ALI20231226BHJP
G06T 7/20 20170101ALI20231226BHJP
【FI】
G06V40/20
G06T7/00 350B
G06T7/20 300Z
(21)【出願番号】P 2023110348
(22)【出願日】2023-07-04
【審査請求日】2023-07-10
【早期審査対象出願】
(73)【特許権者】
【識別番号】520008533
【氏名又は名称】株式会社ACES
(74)【代理人】
【識別番号】110002181
【氏名又は名称】弁理士法人IP-FOCUS
(74)【代理人】
【識別番号】100208959
【氏名又は名称】島田 敏史
(72)【発明者】
【氏名】小林 真輝人
(72)【発明者】
【氏名】宮路 雄太
(72)【発明者】
【氏名】片岡 麻輝
(72)【発明者】
【氏名】久保 静真
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2022-181319(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 40/20
G06T 7/00-7/90
G06F 16/00
(57)【特許請求の範囲】
【請求項1】
動画データ内における検出したい事象である検出事象の有無を判定する事象判定方法であって、
前記検出事象に関連する複数のキーワードを作成するキーワード作成ステップと、
前記動画データ及び前記キーワードを、動画データとテキストデータによる事前学習がなされたテキスト動画分類モデルに入力し、出力として前記動画データの所定時間毎の前記キーワードの存在確率を時系列で示した時系列確率データを取得するキーワード確率算定ステップと、
前記時系列確率データから前記動画データ内における前記検出事象の有無を判定する時系列判定ステップを備えていることを特徴とする事象判定方法。
【請求項2】
請求項1に記載の事象判定方法であって、
時系列判定ステップは、前記時系列確率データを、前記検出事象と前記キーワードを用いて事前学習がなされた時系列解析モデルに入力し、出力として前記動画データ内における前記検出事象の有無を判定することを特徴とする事象判定方法。
【請求項3】
請求項1に記載の事象判定方法であって、
前記動画データは、前記キーワード確率算定ステップに先だって、前記検出事象の判定対象となる検出対象についてトラッキング及びクロッピングする前処理が行われることを特徴とする事象判定方法。
【請求項4】
請求項1に記載の事象判定方法であって、
前記キーワード作成ステップにおいて、前記検出事象を示す事象ラベルを前記キーワードとして作成し、前記キーワード確率算定ステップ及び前記時系列判定ステップを行った結果を第1判定結果とし、
前記事象ラベルを前記キーワードに替えて、或いは前記事象ラベルに前記キーワードを追加して、再度前記キーワード作成ステップ、前記キーワード確率算定ステップ及び前記時系列判定ステップを行った結果を第n判定結果とし(nは2以上の整数)、
第1乃至第n判定結果から導き出されたキーワードを前記検出事象用の推奨キーワードとすることを特徴とする事象判定方法。
【請求項5】
請求項2に記載の事象判定方法であって、
前記時系列解析モデルにおける事前学習は、前記検出事象が撮影された動画データである事象撮影データと、前記キーワードを前記テキスト動画分類モデルに入力し、出力として前記事象撮影データの所定時間毎の前記キーワードの存在確率を学習用時系列確率データとして取得すると共に、前記検出事象を示す事象ラベルと、前記学習用時系列確率データを教師データとする時系列モデル学習ステップであることを特徴とする事象判定方法。
【請求項6】
請求項1に記載の事象判定方法であって、
前記キーワード作成ステップにおいて、前記キーワードが前記テキスト動画分類モデルにおける前記テキストデータから選択されることを特徴とする事象判定方法。
【請求項7】
動画データ内における検出したい事象である検出事象の有無を判定する事象判定装置であって、
判定対象である動画データと、前記検出事象に関連する複数のキーワードを受け付ける入力手段と、
動画データとテキストデータによる事前学習がなされたテキスト動画分類モデル、及び前記検出事象と前記キーワードを用いて事前学習がなされた時系列解析モデルに接続可能な接続手段と、
少なくとも前記入力手段と、前記時系列解析モデルの判定結果を表示する表示手段と、
前記入力手段、前記表示手段、及び前記接続手段を制御する制御手段とを備え、
前記制御手段は、前記入力手段により前記動画データ及び前記キーワードが入力された際に、前記動画データ及び前記キーワードを前記接続手段を介して前記時系列解析モデルに入力し、前記動画データの所定時間毎の前記キーワードの存在確率を時系列で示した時系列確率データを取得して、前記時系列確率データを前記接続手段を介して前記時系列解析モデルに入力し、前記動画データ内における前記検出事象の有無の判定を前記表示手段に表示させることを特徴とする事象判定装置。
【請求項8】
コンピュータを用いて請求項1~6の何れか1項に記載の事象判定方法を実行するための事象判定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画データについて、検出したい検出事象が存在するか否かをテキスト動画分類モデルを用いて判定する方法、判定装置、及び判定プログラムに関する。
【背景技術】
【0002】
従来、カメラ等によって得られた動画データから、転倒等の行動を検知する手法が知られている。例えば、特許文献1に記載された姿勢判定装置は、マイクロバス等の車両に設けられたカメラで、車両に乗車している乗員の姿勢を判定する装置であり、動画データから検出される乗員の頭部や肩部等の骨格点の位置に基づいた特徴量を算出し、姿勢判定確率演算部により、これらの特徴量を機械学習により生成された推論モデルに入力することにより、乗員が転倒姿勢である確率等を演算している。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載された姿勢判定装置のように、転倒姿勢のような定義が明確であり、既存の特徴量から規則的に判定が可能な場合は、従来の推論モデルを利用した判定が可能であるが、例えば、「ふらつく」などの定義が難しい事象については、従来の推論モデルでは判定が困難である。
【0005】
このような定義の難しい事象について推論モデルを用いて判定を行う場合は、事象に応じた教師データを準備することが必要になるが、一般にモデルの作成には大量の教師データが必要であり、検出したい事象に関する大量のデータを収集することは困難である場合が多く存在する。また、認識したい事象を増やす場合には、その都度、その事象の教師データを収集し、推論モデルに学習させる必要がある。
【0006】
本発明は、上記課題に鑑み、定義が不明確で、既存の特徴量から規則的な判定が困難な事象についても、大量の教師データを必要とすることなく、動画データにおけるその事象の有無を判定することができる事象判定方法、事象判定装置、及び事象判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明の事象判定方法は、動画データ内における検出したい事象である検出事象の有無を判定する事象判定方法であって、前記検出事象に関連する複数のキーワードを作成するキーワード作成ステップと、前記動画データ及び前記キーワードを、動画データとテキストデータによる事前学習がなされたテキスト動画分類モデルに入力し、出力として前記動画データの所定時間毎の前記キーワードの存在確率を時系列で示した時系列確率データを取得するキーワード確率算定ステップと、前記時系列確率データから前記動画データ内における前記検出事象の有無を判定する時系列判定ステップを備えていることを特徴とする。
【0008】
本発明の事象判定方法は、動画データ内に検出したい事象があるか否かの判定のために、まず、検出事象に関連する複数のキーワードと、事前学習済みのテキスト動画分類モデルを用いる。このテキスト動画分類モデルによって、動画データの所定時間毎のキーワードの存在確率を時系列で示した時系列確率データが取得される。次に、時系列判定ステップにおいて、時系列確率データから動画データ内における検出事象の有無を判定する。
【0009】
本発明の事象判定方法では、検出事象を複数のキーワードで特定し、その複数のキーワードの時系列の確率を用いて事象の有無を判定するため、定義の難しい事象についても柔軟に判定することが可能となる。また、テキストと動画の関連を広範に獲得したテキスト動画分類モデルを用いて抽出した時系列確率データを用いることで、時系列確率データから動画データ内における検出事象の有無の判定が容易になる。ここで、テキスト動画分類モデルとは、テキストで記述されたキーワードで事象を指定することにより、事象を分類することが可能なモデルをいう。このテキスト動画分類モデルにより、分類の事象に関する大量の動画データの学習が不要となる。なお、キーワードはプロンプトと呼ばれることもある。
【0010】
本発明の事象判定方法において、時系列判定ステップは、前記時系列確率データを、前記検出事象と前記キーワードを用いて事前学習がなされた時系列解析モデルに入力し、出力として前記動画データ内における前記検出事象の有無を判定してもよい。
【0011】
当該構成により、時系列判定ステップにおける判定が容易になると共に、時系列解析モデルの事前学習に時系列確率データを用いることができるため、教師データを必要最小限にすることができる。また、テキスト動画分類モデルを検出事象の関連データを用いて再学習させても良い。ここで、時系列解析モデルとは、時間の経過に伴い変化するデータを分類することが可能なモデルを言う。
【0012】
本発明の事象判定方法においては、前記動画データについて、前記キーワード確率算定ステップに先だって、前記検出事象の判定対象となる検出対象についてトラッキング及びクロッピングを行う前処理を行ってもよい。当該構成により、動画データにおいて、事象を検出したい人物や物をトラッキング(追跡)し、クロッピング(切り抜き)が行われるので、これらの人物や物の動きを確実に把握することができ、判定の精度が向上する。
【0013】
本発明の事象判定方法においては、前記キーワード作成ステップにおいて、前記検出事象を示す事象ラベルを前記キーワードとして作成し、前記キーワード確率算定ステップ及び前記時系列判定ステップを行った結果を第1判定結果とし、前記事象ラベルを前記キーワードに替えて、或いは前記事象ラベルに前記キーワードを追加して、再度前記キーワード作成ステップ、前記キーワード確率算定ステップ及び前記時系列判定ステップを行った結果を第n判定結果とし(nは2以上の整数)、第1乃至第n判定結果から導き出されたキーワードを前記検出事象用の推奨キーワードとしてもよい。
【0014】
キーワード作成ステップにおいて、このような手順を行うことにより、テキスト動画分類モデル及び時系列解析モデルを用いて、検出事象を検出するための適切なキーワードを作成することができる。
【0015】
また、本発明の事象判定方法においては、前記時系列解析モデルにおける事前学習は、前記検出事象が撮影された動画データである事象撮影データと、前記キーワードを前記テキスト動画分類モデルに入力し、出力として前記事象撮影データの所定時間毎の前記キーワードの存在確率を学習用時系列確率データとして取得すると共に、前記検出事象を示す事象ラベルと、前記学習用時系列確率データを教師データとする時系列モデル学習ステップであってもよい。
【0016】
時系列解析モデルにおける事前学習をこのような時系列モデル学習ステップとすることで、検出事象を示す事象ラベルと各キーワードの時系列の存在確率が関係づけられるため、検出事象の検出の精度が向上する。
【0017】
また、本発明の事象判定方法においては、前記キーワード作成ステップにおいて、前記キーワードが前記テキスト動画分類モデルにおける前記テキストデータから選択されてもよい。当該構成により、キーワード確率算定ステップにおいて、各キーワードに確実に存在確率を求めることができる。
【0018】
また、上記目的を達成するために、本発明の事象判定装置は、動画データ内における検出したい事象である検出事象の有無を判定する事象判定装置であって、判定対象である動画データと、前記検出事象に関連する複数のキーワードを受け付ける入力手段と、動画データとテキストデータによる事前学習がなされたテキスト動画分類モデル、及び前記検出事象と前記キーワードを用いて事前学習がなされた時系列解析モデルに接続可能な接続手段と、少なくとも前記入力手段と、前記時系列解析モデルの判定結果を表示する表示手段と、前記入力手段、前記表示手段、及び前記接続手段を制御する制御手段とを備え、前記制御手段は、前記入力手段により前記動画データ及び前記キーワードが入力された際に、前記動画データ及び前記キーワードを前記接続手段を介して前記時系列解析モデルに入力し、前記動画データの所定時間毎の前記キーワードの存在確率を時系列で示した時系列確率データを取得して、前記時系列確率データを前記接続手段を介して前記時系列解析モデルに入力し、前記動画データ内における前記検出事象の有無の判定を前記表示手段に表示させることを特徴とする。
【0019】
また、本発明の事象判定プログラムは、コンピュータを用いて上記各事象判定方法を実行するためのプログラムである。
【発明の効果】
【0020】
本発明によれば、定義が難しい事象についても、大量の教師データを必要とせず、動画データにおけるその事象の有無を判定することができる事象判定方法、装置及びプログラムを提供することができる。
【図面の簡単な説明】
【0021】
【
図1】本発明の実施形態の一例である事象判別装置の構成を示す説明図。
【
図2】本実施形態の事象判別装置における入力画面を示す説明図。
【
図3】本実施形態の事象判別装置における学習画面を示す説明図。
【
図4】本実施形態の事象判別装置における「躓き」の判定結果画面を示す説明図。
【
図5】本実施形態の事象判別装置におけるメニュー画面を示す説明図。
【
図6】(A)~(C)は本実施形態の事象判別装置の判定対象である動画データの一例を示す説明図。
【
図7】動画データにおいて、作業員が躓いた際の作業員のシルエットを模式化した説明図。
【
図8】本実施形態の事象判別装置における「ふらつき」の判定結果画面を示す説明図。
【
図9】動画データにおいて、作業員がふらついた際の作業員のシルエットを模式化した説明図。
【発明を実施するための形態】
【0022】
次に、
図1~
図9を参照して、本発明の実施形態である事象判定装置、事象判定方法、及び事象判定プログラムについて説明する。本実施形態の事象判定装置1は、コンピュータを主要構成としており、コンピュータ本体2と、ディスプレイ3と、マウス4及びキーボード5等を備えている。事象判定装置1は、インターネット等のネットワーク6に接続されており、ネットワーク6を介してテキスト動画分類モデル7及び時系列解析モデル8に接続可能となっている。
【0023】
コンピュータ本体2は、CPU(中央演算処理装置)又はGPU(画像処理装置)等のプロセッサ、ハードディスク、メモリ等の記憶手段、及び各種ネットワークとの接続手段等を備えたコンピュータシステム(いずれも図示省略)を備えている。コンピュータ本体2の記憶手段には、コンピュータを本実施形態の事象判定装置1として事象判定方法を実行するための事象判定プログラム及び各種データ等が記憶されている。
【0024】
本実施形態における事象判定プログラムは、CPU等によって実行され、以下に説明する各種の処理が行われる。なお、コンピュータシステムには、いわゆるクラウドコンピューティングが含まれる。また、コンピュータプログラムは、事象判定装置1内に記憶されたプログラムのみならず、事象判定装置1とは別個の場所に設置されたサーバ内に記憶されたプログラム、或いは、API(Application Programming Interface)連携を利用したプログラムも含む概念である。
【0025】
次に、事象判定装置1の機能的構成について、
図1を参照して説明する。事象判定装置1は、その機能部として、入力手段9と、表示手段10と、接続手段11と、制御手段12を備えている。また、事象判定装置1は、接続手段11によって事前学習済みのテキスト動画分類モデル7と、時系列解析モデル8に接続が可能である。
【0026】
本実施形態において、入力手段9は、
図2に示す入力画面20を備えている。入力画面20は、判定対象である動画データVを入力可能な動画入力部21と、検出したい行動や状態等の事象である検出事象を入力可能な検出事象入力部22と、判定に利用するテキスト動画分類モデル7を選択するための分類モデル入力部23と、検出したい事象に関連するキーワードを受け付けるキーワード入力部24と、動画入力部21に入力された動画データVと作成されたキーワードを入力してテキスト動画分類モデル7の出力を得る確率算定ボタン25と、テキスト動画分類モデル7の出力を表示させる算定結果表示部26を備えている。
【0027】
動画入力部21には、検出したい動画をドラッグアンドドロップで入力するか、参照ボタン21aをクリックして、事象判定装置1に記憶されているファイルのパスを指定するか、或いはネットワーク上で公開されている動画のURLを入力する等の操作により、検出したい動画データVを入力する。
【0028】
検出事象入力部22には、検出したい事象、例えば「躓き」や「ふらつき」等の行動を入力する。この場合、参照ボタン22aをクリックすることにより、過去に判定を行った事象をポップアップメニュー等で表示させ、選択できるようにしてもよい。
【0029】
分類モデル入力部23には、判定において利用するテキスト動画分類モデル7を入力する。この分類モデル入力部23においても、参照ボタン23aをクリックすることにより、利用可能なテキスト動画分類モデル7がポップアップメニュー等で表示され、任意のテキスト動画分類モデル7を選択できるようにしてもよい。
【0030】
キーワード入力部24には、検出したい行動に関連するキーワードを作成して入力する。キーワード入力部24には、操作担当者が任意にキーワードを入力してもよい。又は、判定済呼出ボタン27をクリックして、検出したい事象について判定済のキーワードがある場合に、そのキーワードを表示させて操作担当者が選択してもよい。或いは、モデル呼出ボタン28をクリックして、判定に利用するテキスト動画分類モデル7において分類に使用されているテキストを表示させ、選択することも可能である。
【0031】
動画入力部21、検出事象入力部22、分類モデル入力部23、及びキーワード入力部24にそれぞれ必要事項を入力した後、確率算定ボタン25をクリックすると、算定結果表示部26に指定した動画データVにおける各キーワードの確率が算定されて時系列確率データ29としてグラフ状に表示される。
【0032】
また、入力手段9は、
図3に示す学習画面30を備えている。学習画面30は、時系列解析モデル8の学習を行うための画面であり、学習を実施する時系列解析モデル8を選択する時系列モデル入力部31と、学習したい事象である事象ラベルを入力する事象ラベル入力部32と、教師データとなる学習用時系列確率データを入力可能な教師データ入力部33と、学習対象である学習用時系列確率データを入力する学習データ入力部34と、学習を行う際にクリックする学習ボタン35を備えている。
【0033】
また、これらの入力部には、それぞれ入力を補助するための参照ボタン31a~34aが設けられている。それぞれの入力部及び参照ボタンは、
図2における入力画面20の各構成と同様の構成となっているので、詳細な説明は省略する。
【0034】
図4は、後述する
図5のメニュー画面50において事象判定ボタン53がクリックされた結果表示される判定結果画面40を表している。判定結果画面40では、検出した動画の名称或いは保存場所等を示す動画表示部41と、検出した事象を示す事象ラベル表示部42と、時系列解析モデル8の出力としての判定結果が表示される判定結果表示部43を備えている。判定結果画面40においては、判定結果表示部43に表示されたグラフがどのキーワードを示すかを表す線種が表示されている。実際の表示では、この線種は線の色を変えて表示がなされている。
【0035】
本実施形態における表示手段10は、入力手段9である入力画面20、学習画面30、及び判定結果画面40等を事象判定装置1のディスプレイ3や、他のタブレット端末等の他の表示端末に表示させる機能部である。
【0036】
本実施形態における接続手段11は、事象判定装置1と、動画データとテキストデータによる事前学習がなされたテキスト動画分類モデル7、及び検出事象とキーワードを用いて事前学習がなされる時系列解析モデル8を接続し、判定処理において両モデルを利用するための機能部である。
【0037】
本実施形態における制御手段12は、入力手段9、表示手段10、及び接続手段11を制御する機能部である。制御手段12は、コンピュータ本体2を始めとするハードウェアと、事象判定プログラムを含む複数のプログラムによって実現される。
【0038】
本実施形態の事象判定装置1において利用可能なテキスト動画分類モデル7としては、OpenAI社が公開しているXCLIPが挙げられる。このXCLIPは、ゼロショットで言語と紐付けて画像分類することが可能な大規模画像分類モデルであるCLIPを動画に拡張したモデルであり、次の文献に詳細が記載されている。(Expanding Language-Image Pretrained Models for General Video Recognition/ 4 Aug 2022/ Bolin Ni, Houwen Peng他。https://arxiv.org/pdf/2208.02816.pdf)。
【0039】
テキスト動画分類モデル7としては、このXCLIPのみならず、テキストで記述されたキーワードで事象を指定することにより、事象を分類することが可能なモデルであれば良い。例えば、XCLIPは、インターネット等で公開されている画像とテキストを抽出した大量のデータを用いて、画像とテキスト(記述文)に関する対照学習を実施した言語画像事前学習モデルを動画認識に拡張したモデルであるが、このようなモデルには限られない。大量のテキストデータ及び動画(画像を含む)を使ってトレーニングされた自然言語処理のモデル等、様々なモデルを用いることができる。このようなモデルにより、テキストと動画間の類似性の推定をゼロショット学習(学習していない未知のものを予測する技術)で行うことが可能となる。
【0040】
また、本実施形態の事象判定装置1において利用可能な時系列解析モデル8としては、決定木アンサンブル手法であるランダムフォレストを時系列データに適用できるようにしたTSFと呼ばれるモデルを挙げることができる。このTSFの詳細については、次の文献に記載がある。(A Time Series Forest for Classification and Feature Extraction/ 18 Feb 2013/ Houtao Deng他。https://arxiv.org/pdf/1302.2277.pdf)。
【0041】
この時系列解析モデル8としては、TSFのみならず、深層学習モデルや複数のモデルを組み合わせるアンサンブルモデル等、時系列データに対して分類が可能なモデルを使用することができる。
【0042】
次に、本実施形態の事象判定方法について、各図面を参照して説明する。本実施形態の事象判定方法は、キーワード作成ステップ、キーワード確率算定ステップ、時系列モデル学習ステップ、及び時系列判定ステップの各ステップからなる。
【0043】
本実施形態では、
図6に示すように、作業員Aが通行する作業現場を定点カメラで撮影した動画データVから、作業員Aにヒヤリハットとなる事象が発生したか否かを判定する。ヒヤリハットに該当する行為としては、事故にはなっていないが潜在的に事故発生の要因となる「躓き」や「ふらつき」等の行為が該当する。このような行為は、「転倒」等の明確な行為ではなく、曖昧な概念を有する行為となっている。
【0044】
本実施形態の事象判定方法では、事象判定装置1を立ち上げて、事象判定プログラムを起動させると、
図5に示すメニュー画面50が表示される。メニュー画面50の動画・キーワード入力ボタン51をクリックすると、
図2に示す入力画面20が表示される。
【0045】
入力画面20において、キーワード作成ステップを実行する。このキーワード作成ステップは、検出事象に関連する複数のキーワードを作成するステップである。検出事象は、判定希望者が検出を行いたい事象であり、例えば、作業員Aの作業中の行為のうち、ヒヤリハットに該当する行為等が挙げられる。
【0046】
キーワード作成ステップでは、曖昧な概念を有する検出事象について、関連する複数のキーワードを作成する。このキーワードは、検出事象を特定するためのキーワードであり、検出事象を複数の要素に分けたものとすることができる。例えば、
図2に示すように、検出事象が人の「躓き」の場合、転倒、起立、歩行、横たわる、屈むの5項目のキーワードを挙げることができる。
【0047】
このキーワードの作成は、操作担当者が任意に作成する場合、操作担当者がキーワードとしたい文言をキーボード5からキーワード入力部24に入力することができる。このとき、LLM(Large Language Models)を活用してキーワードを作成してもよい。また、検出事象について既に判定を行った実績がある場合は、判定済呼出ボタン27をクリックすることで、実績のあるキーワードを利用することが可能となる。
【0048】
一方で、今回判定を行う検出事象について、過去に判定を行った実績がない場合であっても、モデル呼出ボタン28をクリックすることで、分類モデル入力部23において入力したテキスト動画分類モデル7で分類に使用されているテキストを表示させることができる。これにより、確実に存在確率を算出することができるキーワードを作成することができる。
【0049】
次に、キーワード確率算定ステップについて説明する。キーワード確率算定ステップでは、検出事象に対して複数のキーワードを関連付け、検出したい動画内におけるテキスト動画分類モデル7に入力し、出力として動画データVの所定時間毎の各キーワードの存在確率を時系列で示した時系列確率データ29を取得する。
【0050】
具体的には、
図2の入力画面20において、動画入力部21、検出事象入力部22、分類モデル入力部23、及びキーワード入力部24にそれぞれ必要事項を入力した後、確率算定ボタン25をクリックする。当該操作により、制御手段12が接続手段11を介して、入力された動画データVとキーワードをテキスト動画分類モデル7に入力し、その出力として、算定結果表示部26に指定した動画データVにおける各キーワードの確率が算定されて時系列データとしてグラフ状に表示される。
【0051】
なお、本実施形態においては、動画データVの前処理として、
図6(A)~(C)に示すように、キーワード確率算定ステップに先だって作業現場における検出対象である作業員Aを検出してトラッキングを行い、
図7及び
図9に示すように、作業員Aの動画のクロッピングを行っている。1つの動画データVに作業員Aが複数存在している場合は、それぞれの作業員A毎に動画がクロッピングされるようになっている。
【0052】
次に、メニュー画面50に戻り、時系列モデル学習ボタン52をクリックして、時系列モデル学習ステップを実行する。時系列モデル学習ボタン52をクリックすると、
図3に示す学習画面30が表示される。
【0053】
時系列モデル学習ステップでは、学習画面30において、時系列モデル入力部31に学習を実施する時系列解析モデル8を入力する。
図3では、この時系列解析モデル8の例として、TSFを入力している。また、事象ラベル入力部32に学習したい事象である事象ラベルとして「躓き」を入力し、教師データ入力部33に教師データとなる事象撮影データを入力する。
【0054】
教師データとなる事象撮影データは、事象ラベルである「躓き」を再現した動画データであり、事象撮影データのどの位置(時間)で躓きが発生しているかが事象撮影データ内に保存されており、いわゆるアノテーションが行われている。本実施形態では、
図3に示すように、事象判定装置1のコンピュータ本体2に記憶されている動画データを入力している。
【0055】
また、時系列モデル学習ステップでは、学習画面30において、学習データ入力部34に学習の対象となる学習用時系列確率データを入力する。
図3では、学習用時系列確率データの例として、事象判定装置1のコンピュータ本体2に記憶されている学習用時系列確率データを入力している。本実施形態における学習用時系列確率データは、予め事象ラベルである「躓き」を再現した事象撮影データをキーワードと共にテキスト動画分類モデル7に入力し、その出力である学習用時系列確率データを学習データとしている。
【0056】
このように、学習画面30において必要な情報を入力した後、学習ボタン35をクリックすることで、時系列解析モデル8であるTFSの学習が行われる。事象ラベルは、動画データV内における検出したい事象であるため、当該学習により、その事象ラベルに関する事象と各キーワードの確率との関係が学習される。
【0057】
次に、時系列判定ステップについて説明する。時系列モデル学習ステップの実施後、メニュー画面50に戻り、事象判定ボタン53をクリックして、時系列判定ステップを実行する。事象判定ボタン53をクリックすると、
図4に示す判定結果画面40が表示される。
【0058】
図4は、検出したい事象である検出事象が「躓き」である場合の判定結果を示している。判定結果表示部43において、時系列確率データ29の下方に判定結果が表示されている。白抜きの部分は躓きが発生していないことを示しており、黒塗りの部分は躓きが発生していることを示している。
【0059】
ここで、
図4の判定結果表示部43に表示された時系列確率データ29における作業員Aの状態を動画データVで確認すると、
図7の状態となっている。
図7において、(1)と(2)、及び(5)では躓きは発生しておらず、(3)及び(4)において躓きが発生している。
【0060】
図7の(3)及び(4)については、作業員Aは体勢を崩しているが、転倒しているわけではなく、屈んでいる状態でもない。よって、従来の推論モデルによる判定では躓いていることの判定が困難である。本実施形態では、検出事象を複数のキーワードの確率を用いて判定するため、定義が難しい事象であっても、正確に判定を行うことが可能となる。
【0061】
図8は、検出したい事象である検出事象が「ふらつき」である場合の判定結果を示している。判定結果表示部43において、時系列確率データ29の下方に判定結果が表示されている。白抜きの部分はふらつきが発生していないことを示しており、黒塗りの部分はふらつきが発生していることを示している。
【0062】
ここで、
図8の判定結果表示部43に表示された時系列確率データ29における作業員Aの状態を動画データVで確認すると、
図9の状態となっている。
図9において、(1)と(4)及び(5)では躓きは発生しておらず、(2)及び(3)において躓きが発生している。
【0063】
検出事象が「ふらつき」の場合、「躓き」の場合に比べても正常な歩行状態との差が小さくなっているが、本実施形態の事象判定方法によれば、高い確率で「ふらつき」の有無を判定することができた。
【0064】
次に、キーワード作成ステップの他の実施形態について説明する。
図2に示す入力画面20において、キーワード入力部24に、事象ラベルである「躓き」をキーワードとして入力し、キーワード確率算定ステップ及び時系列判定ステップを行って第1判定結果を得る。判定結果は、
図4に示す判定結果画面40において、キーワードが「躓き」のみの判定結果となる。
【0065】
次に、
図2に示す入力画面20に戻り、キーワード入力部24に「躓き」に替えて他のキーワードを入力するか、「躓き」に他のキーワードを追加し、キーワード確率算定ステップ及び時系列判定ステップを行って第2判定結果を導き出す。この操作をn回(nは2以上の整数)行って判定結果を検証し、判定の確率が高いキーワードを検出事象用の推奨キーワードとする。この第1判定結果乃至第n判定結果を検証することで、キーワード作成ステップの際に、判定の確率の高いキーワードを作成することが可能となる。
【0066】
なお、上記実施形態において、事象判定装置1をデスクトップ型のコンピュータで実現しているが、これに限らず、タブレット端末、或いはスマートフォン等の各種デバイスで実現することも可能である。また、上記実施形態において、事象判定装置1は、ネットワーク6を介してテキスト動画分類モデル7及び時系列解析モデル8に接続可能としているが、これに限らず、これらのモデルをコンピュータ本体2の記憶手段に記憶させていてもよい。
【0067】
また、上記実施形態においては、キーワード確率算定ステップを行った後に時系列モデル学習ステップを行っているが、これらのステップは順不同で行うことができる。また、テキスト動画分類モデル7は、XCLIPを用いているが、テキストと動画が分類されたモデルであれば、他の公知のモデルを用いてもよい。同様に、時系列解析モデル8についても、TSF以外の公知の時系列解析モデルを用いてもよい。さらに、本発明の事象判定プログラムは、コンピュータ内に記憶された状態のみならず、CDロムやDVDロム等の記憶媒体に記憶された状態であってもよい。
【0068】
また、本実施形態では、時系列判定ステップにおいて時系列解析モデル8を用いているが、これに限らず、時系列確率データの各キーワードの確率にそれぞれ閾値を設け、各キーワードについて演算された確率と当該閾値との関係を元に検出事象の有無を判定してもよい。この場合、各キーワードの閾値は、データテーブル等に記憶しておいてもよく、判定の際に操作担当者が設定してもよい。
【0069】
また、本実施形態において、
図2における検出事象入力部22には1つの事象のみを入力しているが、これに限らず、複数の事象(例えば躓き、ふらつき、又は転倒等)を入力して、判定結果としてそれぞれの事象が発生しているか否かを判定してもよい。このように、複数の事象を同時に判定することで、判定の効率を向上させることができる。
【0070】
また、本実施形態において、検出事象として「ヒヤリハット」、具体的には「躓き」や「ふらつき」等を例にして説明したが、これに限らず、単純な「転倒」等の事象を検出事象とした場合であっても、当然に事象を正確に判定することができる。
【符号の説明】
【0071】
1…事象判定装置
2…コンピュータ本体
3…ディスプレイ
4…マウス
5…キーボード
6…ネットワーク
7…テキスト動画分類モデル
8…時系列解析モデル
9…入力手段
10…表示手段
11…接続手段
12…制御手段
20…入力画面
30…学習画面
40…判定結果画面
50…メニュー画面
【要約】 (修正有)
【課題】定義が難しい事象についても、大量の教師データを必要とすることなく、動画データにおけるその事象の有無を判定できる事象判定方法、装置、及びプログラムを提供する。
【解決手段】ネットワークを介してテキスト動画分類モデル及び時系列解析モデルに接続されている事象判定装置は、まず、入力手段が備える入力画面20において、判定を行う動画と、検出したい事象と、利用するテキスト動画分類モデルを指定し、検出事象に関するキーワードを作成し、動画において、このキーワードの存在確率を算定して時系列確率データ29を得る。次に、この時系列確率データ29を、検出事象を再現した動画とキーワードで学習済の時系列解析モデルで解析することにより、躓きやふらつき等の定義が曖昧で推定が難しい事象の有無を判定する。
【選択図】
図2