(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023108518
(43)【公開日】2023-08-04
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20230728BHJP
G06V 20/52 20220101ALI20230728BHJP
【FI】
G06T7/00 P
G06T7/00 350B
G06V20/52
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022009679
(22)【出願日】2022-01-25
(71)【出願人】
【識別番号】000191076
【氏名又は名称】日鉄ソリューションズ株式会社
(74)【代理人】
【識別番号】100117857
【弁理士】
【氏名又は名称】南林 薫
(72)【発明者】
【氏名】金井 怜
(72)【発明者】
【氏名】山岡 信介
(72)【発明者】
【氏名】森屋 和喜
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA16
5L096CA04
5L096CA21
5L096EA39
5L096GA30
5L096GA34
5L096JA05
5L096JA11
5L096KA04
5L096MA07
(57)【要約】
【課題】対象となる主体が実施している作業をより精度よく分類可能とする。
【解決手段】所定の主体に装着された集音装置による集音結果に基づく音響のデータに対して、前記音響の解析結果に基づき、当該音響が示す検出対象に関する情報を付帯情報として関連付ける関連付け手段と、分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された情報に基づく特徴と、より類似度の高い特徴に関する前記付帯情報が関連付けられたデータがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する重み付け手段と、前記分類対象の候補となる作業ごとの前記重みが設定された前記データに基づき、前記主体が実施している作業を分類する分類手段と、を備える、情報処理装置。
【選択図】
図8
【特許請求の範囲】
【請求項1】
所定の主体に装着された集音装置による集音結果に基づく音響のデータに対して、前記音響の解析結果に基づき、当該音響が示す検出対象に関する情報を付帯情報として関連付ける関連付け手段と、
分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された情報に基づく特徴と、より類似度の高い特徴に関する前記付帯情報が関連付けられたデータがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する重み付け手段と、
前記分類対象の候補となる作業ごとの前記重みが設定された前記データに基づき、前記主体が実施している作業を分類する分類手段と、
を備える、情報処理装置。
【請求項2】
前記分類対象の候補となる作業ごとに、当該作業に関連する1以上の文字情報があらかじめ登録され、
前記関連付け手段は、前記集音装置による集音結果に基づく音響が示す検出対象が1以上の文字情報に関連付けて示された前記付帯情報を、前記データに関連付け、
前記重み付け手段は、前記分類対象の候補となる作業に対して登録された前記1以上の文字情報に基づく第1の特徴量ベクトルと、一連の前記データそれぞれに関連付けられた前記付帯情報に基づく第2の特徴量ベクトルと、の類似度に基づき、一連の前記データに対して前記重みを設定する、
請求項1に記載の情報処理装置。
【請求項3】
前記重み付け手段は、前記第1の特徴量ベクトルと前記第2の特徴量ベクトルとの内積に基づき、当該第1の特徴量ベクトルと当該第2の特徴量ベクトルとの類似度を算出する、
請求項2に記載の情報処理装置。
【請求項4】
前記分類手段は、前記付帯情報が関連付けられた一連の前記データそれぞれを、当該データに関連付けられた前記付帯情報と、当該データに設定された前記重みと、に応じて分類し、当該一連の前記データの分類結果に基づき、前記主体が実施している作業を分類する、
請求項1~3のいずれか1項に記載の情報処理装置。
【請求項5】
前記データは、所定の長さの期間ごとの集音結果に基づく音響のデータであり、
集音タイミングが時系列に沿って連続する所定の長さの期間ごとに、当該期間における集音結果に基づく音響のデータを含むグループを設定する重み付け手段を備え、
前記分類手段は、前記グループごとに、前記分類対象の候補となる作業ごとの前記重みが設定された当該グループに含まれる前記データに基づき、前記主体が実施している作業を分類する、
請求項1~4のいずれか1項に記載の情報処理装置。
【請求項6】
前記グループに含まれる所定数の前記データそれぞれに関連付けられた前記付帯情報が示す特徴に基づき、当該グループごとの特徴を算出する算出手段を備え、
前記重み付け手段は、算出された前記グループごとの特徴に基づき、前記グループ単位で前記重みを設定し、
前記分類手段は、前記グループ単位で設定された前記重みに応じて、前記グループごとに前記主体が実施している作業を分類する、
請求項5に記載の情報処理装置。
【請求項7】
前記分類対象の候補となる作業に対して、少なくとも一部の前記検出対象として環境音の発生要因に関する情報が登録され、
前記関連付け手段は、前記集音装置による集音結果に基づく音響の解析結果に基づき、当該音響の発生要因に関する情報を前記付帯情報として、当該音響に対応する前記データに関連付け、
前記重み付け手段は、前記分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された前記環境音の発生要因に関する情報に基づく特徴と、より類似度の高い特徴を示す前記音響の発生要因に関する情報が前記付帯情報として関連付けられた前記データがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する、
請求項1~6のいずれか1項に記載の情報処理装置。
【請求項8】
前記重み付け手段は、前記集音装置による集音結果に応じた音響から変換されたスペクトログラムの画像に対する解析の結果に基づき、当該音響が示す検出対象に関する情報を前記付帯情報として、当該音響に対応する前記データに関連付ける、
請求項1~7のいずれか1項に記載の情報処理装置。
【請求項9】
前記関連付け手段は、機械学習に基づき構築された認識器に対して前記集音装置による集音結果に基づく音響から変換された前記スペクトログラムの画像を入力することで、当該認識器から出力される当該音響が示す対象が検出対象検出対象であることの確からしさを示す確信度情報を前記付帯情報として、当該音響に対応する前記データに関連付け、
前記重み付け手段は、前記分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された1以上の検出対象に基づく特徴と、より類似度の高い特徴を示す前記確信度情報が前記付帯情報として関連付けられた前記データがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する、
請求項8に記載の情報処理装置。
【請求項10】
情報処理装置が実行する情報処理方法であって、
所定の主体に装着された集音装置による集音結果に基づく音響のデータに対して、前記音響の解析結果に基づき、当該音響が示す検出対象に関する情報を付帯情報として関連付ける関連付けステップと、
分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された情報に基づく特徴と、より類似度の高い特徴に関する前記付帯情報が関連付けられたデータがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する設定ステップと、
前記分類対象の候補となる作業ごとの前記重みが設定された前記データに基づき、前記主体が実施している作業を分類する分類ステップと、
を含む、情報処理方法。
【請求項11】
コンピュータに、
所定の主体に装着された集音装置による集音結果に基づく音響のデータに対して、前記音響の解析結果に基づき、当該音響が示す検出対象に関する情報を付帯情報として関連付ける関連付けステップと、
分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された情報に基づく特徴と、より類似度の高い特徴に関する前記付帯情報が関連付けられたデータがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する設定ステップと、
前記分類対象の候補となる作業ごとの前記重みが設定された前記データに基づき、前記主体が実施している作業を分類する分類ステップと、
を実行させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
従来より、作業環境の撮像結果に応じた動画像や静止画像(以下、これらを総じて画像と称する場合がある)等のような当該作業環境の状況の観測結果に応じた情報を利用して、作業者や設備(例えば、作業車両等)が実施している作業を判定する技術が知られている。また、近年では、このような技術の一例として、機械学習に基づきあらかじめ構築された学習済モデルを利用して、作業者や設備が実施している作業を判定する技術も各種検討されている。例えば、特許文献1には、作業車両に取り付けられたカメラによる撮像結果に応じた画像のデータ(以降では、画像データとも称する)を利用して、当該作業車両が実施している作業を判定する技術の一例が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
一方で、従来の技術では、作業環境で作業者や設備(例えば、作業車両等)等のような作業の主体が実施する当該作業の分類に際して、必ずしも要求される精度での分類が実現できているとは限らない場合がある。このような背景から、対象となる主体(例えば、作業者や設備等)が実施する作業をより精度よく分類可能とする技術の実現が求められている。
【0005】
本発明は上記の問題を鑑み、対象となる主体が実施している作業をより精度よく分類可能とすることを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る情報処理装置は、所定の主体に装着された集音装置による集音結果に基づく音響のデータに対して、前記音響の解析結果に基づき、当該音響が示す検出対象に関する情報を付帯情報として関連付ける関連付け手段と、分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された情報に基づく特徴と、より類似度の高い特徴に関する前記付帯情報が関連付けられたデータがより優先されるように、前記付帯情報が関連付けられた一連の前記データに対して重みを設定する重み付け手段と、前記分類対象の候補となる作業ごとの前記重みが設定された前記データに基づき、前記主体が実施している作業を分類する分類手段と、を備える。
【発明の効果】
【0007】
本発明によれば、対象となる主体が実施している作業をより精度よく分類することが可能となる。
【図面の簡単な説明】
【0008】
【
図1】情報処理システムのシステム構成の一例を示した図である。
【
図2】情報処理装置のハードウェア構成の一例を示した図である。
【
図3】情報処理システムの機能構成の一例を示した機能ブロック図である。
【
図4】特徴量に基づく判定に係る処理の一例について説明するための図である。
【
図5】データに重みを設定する処理の一例について説明するための図である。
【
図6】情報処理システムの処理の一例を示したフローチャートである。
【
図7】動画像の画像データを対象とした解析処理の一例を示した図である。
【
図8】特徴量に基づく判定に係る処理の他の一例について説明するための図である。
【
図9】スペクトログラム画像の一例を示した図である。
【
図10】情報処理システムの処理の他の一例を示したフローチャートである。
【発明を実施するための形態】
【0009】
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0010】
<システム構成>
図1を参照して、本開示の一実施形態に係る情報処理システムのシステム構成の一例について説明する。本実施形態に係る情報処理システム1は、サーバ装置100と、1以上の端末装置200と、ウェアラブルデバイス300とを含む。なお、
図1に示す端末装置200a及び200bは、それぞれが端末装置200の一例を示している。以降の説明では、端末装置200a及び200bのそれぞれを特に区別しない場合には、単に端末装置200と称するものとする。また、ウェアラブルデバイス300は、ユーザが装着して使用する端末装置であり、観測対象となるユーザごとに個別に設けられている。
【0011】
また、ウェアラブルデバイス300には、装着されたユーザの周囲の状況を観測する観測装置310が支持されている。このような構成により、観測装置310は、ウェアラブルデバイス300を介してユーザに装着された状態で使用されることとなる。
観測装置310は、例えば、周囲の状況を撮像し、撮像結果に応じた画像(例えば、静止画像や動画像)のデータを所定の出力先に出力する撮像装置により実現され得る。また、他の一例として、観測装置310は、周囲の空間を伝搬して到来する音響(例えば、環境音や音声等)を集音し、集音結果に応じた音響のデータを所定の出力先に出力する集音装置により実現されてもよい。このように、観測装置310としては、周囲の状況を人が知覚可能な感覚の種類(モダリティ)に対応する方法で観測可能であれば、その種別は特に限定はされない。
【0012】
なお、ウェアラブルデバイス300として適用される装置については、ユーザが装着して使用可能な装置であり、かつ観測装置310を支持可能に構成されていれば、その種別は特に限定はされない。具体的な一例として、所謂メガネ型のデバイスがウェアラブルデバイス300として適用されてもよい。また、他の一例として、観測装置310自体が、ウェアラブルデバイス300として構成されていてもよい。この場合には、観測装置310自体がベルト等の支持部材によりユーザに装着された状態で、当該観測装置310が使用されることとなる。
【0013】
なお、本実施形態では、情報処理システム1の特徴をよりわかりやすくするために、観測対象となるユーザが、ユーザU1として示す1人のユーザであり、使用されるウェアラブルデバイス300が、当該ユーザU1に装着されて使用される1台であるものとする。また、観測装置310としては、所謂ビデオカメラのような、周囲の状況の観測結果に基づくデータとして、撮像結果に応じた画像と集音結果に音響とを含むデータを出力可能な撮像装置が適用されるものとする。
【0014】
サーバ装置100と、各端末装置200と、ウェアラブルデバイス300とは、ネットワークN1を介して互いに情報を送受信可能に接続されている。
なお、ネットワークN1の種別は特に限定はされない。具体的な一例として、ネットワークN1は、インターネット、専用線、LAN(Local Area Network)、または、WAN(Wide Area Network)等により構成されていてもよい。また、ネットワークN1は、有線のネットワークにより構成されていてもよいし、5G、LTE(Long Term Evolution)、及びWi-Fi(登録商標)等の通信規格に基づくネットワークのような無線のネットワークにより構成されていてもよい。また、ネットワークN1は、複数のネットワークを含んでもよく、一部のネットワークとして、他のネットワークと異なる種別のネットワークが適用されてもよい。また、上述した各種情報処理装置間の通信が論理的に確立されていればよく、物理的には各種情報処理装置間の通信が他の通信装置等により中継されてもよい。
【0015】
端末装置200は、ユーザからの入力(例えば、各種指示)の受け付けや、ユーザへの各種情報(例えば、フィードバック等)の提示に係るインタフェースとしての役割を担う。具体的な一例として、端末装置200は、ネットワークを介して後述するサーバ装置100からデータを受信し、当該データに基づく情報を、所定の出力装置(例えば、ディスプレイ等)を介してユーザに提示してもよい。また、端末装置200は、所定の入力装置(例えば、タッチパネル等)を介してユーザから受け付けた操作に基づき、当該ユーザからの指示を認識し、ネットワークを介して当該指示に応じた情報をサーバ装置100に送信してもよい。これにより、サーバ装置100は、ユーザからの指示を認識し、当該指示に応じた処理を実行することが可能となる。
端末装置200は、例えば、所謂スマートフォン、タブレット端末、及びPC(Personal Computer)等のような通信機能を有する情報処理装置により実現され得る。
【0016】
サーバ装置100は、管理者となるユーザ(以下、単に管理者とも称する)が、管理対象となる作業者による作業の実施状況の管理や、当該作業の実施状況の分析を行うために、当該管理や当該分析を支援するための各種機能を提供する。例えば、サーバ装置100は、管理対象となる作業者(例えば、ユーザU1)が装着するウェアラブルデバイス300から、当該ウェアラブルデバイス300に支持された観測装置310による、当該作業者の周囲の状況の観測結果に基づくデータを取得する。サーバ装置100は、取得したデータに対して解析を施し、当該解析の結果に応じて、ウェアラブルデバイス300を装着した作業者が実施している作業を、分類対象の候補となる一連の作業のうちのいずれかに分類する。具体的な一例として、サーバ装置100は、取得したデータから抽出される特徴量と、分類対象の候補となる一連の作業それぞれについて設定された特徴量と、の類似度を判定することで、当該判定の結果に基づき、作業者が実施している作業を分類してもよい。上述したサーバ装置100の機能については詳細を別途後述する。
【0017】
なお、
図1に示す構成はあくまで一例であり、必ずしも本実施形態に係る情報処理システム1のシステム構成を限定するものではない。具体的な一例として、サーバ装置100が端末装置200の役割を担ってもよい。すなわち、サーバ装置100自体が、ユーザから各種情報の入力を受け付けてもよく、ユーザに対して各種情報の提示を行ってもよい。また、サーバ装置100に相当する構成要素が、複数の装置が協働することで実現されてもよい。具体的な一例として、サーバ装置100に相当する構成要素が、所謂クラウドサービスとして実現されてもよい。この場合には、当該クラウドサービスが、複数のサーバ装置が協働することにより実現されてもよい。
【0018】
以上、
図1を参照して、本開示の一実施形態に係る情報処理システムのシステム構成の一例について説明した。
【0019】
<ハードウェア構成>
図2を参照して、
図1に示した本実施形態に係る情報処理システム1を構成する各種装置(例えば、サーバ装置100、端末装置200、及びウェアラブルデバイス300等)として適用可能な情報処理装置900のハードウェア構成の一例について説明する。情報処理装置900は、CPU(Central Processing Unit)910と、ROM(Read Only Memory)920と、RAM(Random Access Memory)930と、補助記憶装置940と、ネットワークI/F970とを含む。また、情報処理装置900は、出力装置950と、入力装置960とのうち少なくともいずれかを含んでもよい。CPU910と、ROM920と、RAM930と、補助記憶装置940と、出力装置950と、入力装置960と、ネットワークI/F970とは、バス980を介して相互に接続されている。
【0020】
CPU910は、情報処理装置900の各種動作を制御する中央演算装置である。例えば、CPU910は、情報処理装置900全体の動作を制御してもよい。ROM920は、CPU910で実行可能な制御プログラムやブートプログラムなどを記憶する。RAM930は、CPU910の主記憶メモリであり、ワークエリア又は各種プログラムを展開するための一時記憶領域として用いられる。
【0021】
補助記憶装置940は、各種データや各種プログラムを記憶する。補助記憶装置940は、HDD(Hard Disk Drive)や、SSD(Solid State Drive)に代表される不揮発性メモリ等のような、各種データを一時的または持続的に記憶可能な記憶デバイスにより実現される。
【0022】
出力装置950は、各種情報を出力する装置であり、ユーザに対する各種情報の提示に利用される。例えば、出力装置950は、ディスプレイ等の表示デバイスにより実現され、各種表示情報を表示させることで、ユーザに対して情報を提示してもよい。また、他の一例として、出力装置950は、音声や電子音等の音を出力する音響出力デバイスにより実現され、音声や電信等の音を出力することで、ユーザに対して情報を提示してもよい。このように、出力装置950として適用されるデバイスは、ユーザに対して情報を提示するために利用する媒体に応じて適宜変更されてもよい。なお、出力装置950が、各種情報の提示に利用される「出力部」の一例に相当する。
【0023】
入力装置960は、ユーザからの各種指示の受け付けに利用される。例えば、入力装置960は、マウス、キーボード、タッチパネル等の入力デバイスを含んでもよい。また、他の一例として、入力装置960は、マイクロフォン等の集音デバイスを含み、ユーザが発話した音声を集音してもよい。この場合には、集音された音声に対して音響解析や自然言語処理等の各種解析処理が施されることで、この音声が示す内容がユーザからの指示として認識されてもよい。このように、入力装置960として適用されるデバイスは、ユーザからの指示を認識する方法に応じて適宜変更されてもよい。また、入力装置960として複数種類のデバイスが適用されてもよい。
【0024】
ネットワークI/F970は、外部の装置とのネットワークを介した通信に利用される。なお、ネットワークI/F970として適用されるデバイスは、通信経路の種別や適用される通信方式に応じて適宜変更されてもよい。
【0025】
情報処理装置900のプログラムは、例えば、CD-ROM等の記録媒体によって情報処理装置900に提供されるか、またはネットワーク等を介してダウンロードされてもよい。記録媒体によって情報処理装置900のプログラムが提供される場合には、記録媒体が所定のドライブ装置にセットされることで、当該記録媒体に記録されたプログラムが補助記憶装置940にインストールされる。
【0026】
また、
図2に示す構成はあくまで一例であり、必ずしも本実施形態に係る情報処理システム1を構成する情報処理装置のハードウェア構成を限定するものではない。具体的な一例として、入力装置960や出力装置950等のような一部の構成が含まれていなくてもよい。また、他の一例として、情報処理装置900が実現する機能に応じた構成が適宜追加されてもよい。
【0027】
以上、
図2を参照して、
図1に示した本実施形態に係る情報処理システム1を構成する各種装置として適用可能な情報処理装置900のハードウェア構成の一例について説明した。
【0028】
<機能構成>
図3を参照して、本実施形態に係る情報処理システム1の機能構成の一例について、特にサーバ装置100の構成に着目して説明する。サーバ装置100は、通信部101と、入出力制御部102と、データ解析部103と、類似度判定部106と、重み付け処理部107と、分類部108と、記憶部110とを含む。
【0029】
通信部101は、サーバ装置100の各構成要素が、他の装置(例えば、端末装置200)とネットワークN1を介して情報を送受信するための通信インタフェースである。通信部101は、例えば、ネットワークI/F970により実現され得る。なお、以降の説明では、サーバ装置100の各構成要素が他の装置との間で情報の送受信を行う場合には、特に説明がない限りは、通信部101を介して当該情報の送受信が行われるものとする。
【0030】
記憶部110は、各種データや各種プログラム等を記憶するための記憶領域を模式的に示している。例えば、記憶部110は、サーバ装置100の各構成要素が処理を実行するためのデータやプログラムを記憶してもよい。
また、記憶部110は、ウェアラブルデバイス300から送信されるデータ(例えば、観測装置310による観測結果に応じた画像データや音響データ等)を記憶してもよい。また、記憶部110は、データ解析部103による上記データの解析の過程において生成されるデータや、当該解析の結果に応じて生成されるデータ等を記憶してもよい。また、記憶部110は、後述する類似度判定部106による各種の判定に利用されるデータ等を記憶してもよい。
【0031】
入出力制御部102は、ユーザ(例えば、管理者)に対する各種情報の提示や、ユーザからの情報の入力(例えば、指示等)の受け付けに係る各種処理を実行する。例えば、入出力制御部102は、端末装置200を介した所定のUIの提示に係る処理や、当該UIを介した入力の受け付けに係る処理を実行してもよい。これにより、サーバ装置100は、ユーザからの指示を認識し、当該指示に応じた処理の結果を当該ユーザに提示することが可能となる。
【0032】
データ解析部103は、ウェアラブルデバイス300に支持された観測装置310による、当該ウェアラブルデバイス300を装着した作業者の周囲の状況の観測結果に基づくデータを取得し、当該データに対して各種の解析を施す。なお、データ解析部103が上記データを取得できればその方法は特に限定されない。例えば、データ解析部103は、ウェアラブルデバイス300から上記データを受信してもよい。また、他の一例として、データ解析部103は、ウェアラブルデバイス300から送信される上記データが記憶された所定の記憶領域を参照することで、当該データを取得してもよい。
また、本実施形態に係るデータ解析部103は、特徴量抽出部104と、付帯処理部105とを含む。
【0033】
特徴量抽出部104は、観測装置310による作業者の周囲の状況の観測結果に基づくデータに対して所定の解析処理を施すことで、観測された当該作業者の周囲の状況の特徴を示す情報を特徴量として抽出する。
【0034】
例えば、特徴量抽出部104は、観測装置310として適用された撮像装置による撮像結果に応じた画像(例えば、静止画像や動画像)のデータを解析処理の対象としてもよい。この場合には、特徴量抽出部104は、上記撮像装置による撮像結果に応じた画像に対して画像解析等の所望の解析を施すことで、当該画像に被写体として撮像された対象を認識し、当該認識の結果に応じた情報(例えば、当該対象を示す文字情報)を、特徴量として抽出してもよい。また、他の一例として、特徴量抽出部104は、上記画像に対して所望の解析を施すことで、当該画像に被写体として撮像された対象が、あらかじめ設定された検出対象であることの確からしさを示す確信度情報を、特徴量として抽出してもよい。また、特徴量抽出部104は、動画像のデータを解析処理の対象とする場合には、当該動画像を構成する一連のフレームそれぞれについて、当該フレームに対応する静止画像から上記特徴量を個別に抽出してもよい。
また、他の一例として、特徴量抽出部104は、観測装置310として適用された集音装置による集音結果に応じた音響のデータを解析処理の対象としてもよい。この場合には、特徴量抽出部104は、上記集音装置による集音結果に応じた音響に対して音響解析等の所望の解析を施すことで、当該音響(例えば、環境音や音声等)が示す対象を認識し、当該認識の結果に応じた情報(例えば、当該対象を示す文字情報)を、特徴量として抽出してもよい。また、他の一例として、特徴量抽出部104は、上記音響に対して所望の解析を施すことで、当該音響が示す対象が、あらかじめ設定された検出対象であることの確からしさを示す確信度情報を、特徴量として抽出してもよい。また、特徴量抽出部104は、一連の音響を所定の期間ごとに分割したうえで、当該期間ごとの音響それぞれから上記特徴量を個別に抽出してもよい。
【0035】
また、特徴量抽出部104は、観測装置310による作業者の周囲の状況の観測結果に基づくデータからの、観測された当該作業者の周囲の状況の特徴を示す上記特徴量の抽出に、所謂機械学習に基づき構築された学習済モデル(所謂、識別器や認識器等)を適用してもよい。
【0036】
例えば、画像のデータを解析処理の対象とする場合には、画像と当該画像中の被写体に関する情報との組を教師データとした機械学習に基づき、画像を入力した場合に当該画像中の被写体を示す情報を出力するように構築された学習済モデルを適用すればよい。
また、音響のデータを解析処理の対象とする場合には、音響と当該音響が示す対象に関する情報との組を教師データとした機械学習に基づき、音響を入力した場合に当該音響が示す対象に関する情報を出力するように構築された学習済モデルを適用すればよい。また、他の一例として、音響をスペクトログラムに変換することで、当該スペクトログラムの画像を解析の対象としてもよい。この場合には、スペクトログラムの画像と当該スペクトログラムに対応する音響が示す対象に関する情報との組を教師データとした機械学習に基づき、音響から変換されたスペクトログラムの画像をした場合に当該音響が示す対象に関する情報を出力するように構築された学習済モデルを適用すればよい。
なお、学習済モデルを使用した場合の一例については詳細を別途後述する。
【0037】
付帯処理部105は、解析の対象となるデータに対して、特徴量抽出部104により当該データから抽出された上記特徴量を付帯情報として関連付ける。具体的な一例として、付帯処理部105は、解析の対象となるデータに対して、所謂タグ付け処理により、上記特徴量を付帯情報として関連付けてもよい。もちろん、解析の対象となるデータに対して、当該データから抽出された特徴量を付帯情報として関連付けることが可能であれば、その方法は特に限定はされない。
【0038】
類似度判定部106は、データ解析部103により特徴量の抽出と当該特徴量の関連付けとが行われたデータを対象として、当該データに関連付けられた当該特徴量と、分類対象の候補となる作業ごとに規定された特徴量との類似度を判定する。類似度判定部106により判定される当該類似度は、対象となるデータが示す作業者の周囲の状況(すなわち、観測された作業者の周囲の状況)の特徴と、分類対象の候補となる作業が実施されている場合に想定される作業者の周囲の状況の特徴との類似度を示している。
【0039】
ここで、類似度判定部106の処理の一例について、
図4を参照して、対象となるデータが撮像装置による撮像結果に応じた画像のデータである場合に着目してより詳細に説明する。
図4は、画像から抽出された特徴量を利用した判定に係る処理の一例として、観測された作業者の周囲の状況と、分類対象の候補となる作業が実施されている場合に想定される作業者の周囲の状況の特徴との類似度の判定に係る処理について概要を示した図である。なお、
図4に示す例では、対象となる画像からの特徴量の抽出に学習済モデルが使用され、当該特徴量として、当該画像に被写体として撮像された対象が、あらかじめ設定された検出対象であることの確からしさを示す確信度情報が抽出されるものとする。
【0040】
まず、
図4に示す例における、左側に示すフローについて説明する。
図4に示す例において、左側に示すフローは、撮像装置による作業者の周囲の状況の撮像結果に応じた画像からの特徴量の抽出に係る処理フローを示している。具体的には、動画像を構成する一連のフレームそれぞれに対応する静止画像を学習済モデルに入力することで、当該静止画像(フレーム)に被写体として撮像された対象が、あらかじめ設定された検出対象であることの確からしさを示す確信度情報が抽出される。
【0041】
例えば、
図4に示す例の場合には、脚立と作業者の手とが映り込んだフレームに対応する静止画像が学習済モデルに入力されている。そのため、確信度情報としては、静止画像に被写体として撮像された対象が、「手」である確率と、「脚立」である確率とがより高く設定され、「犬」等のように実際に被写体として撮像されていない検出対象である確率がより低く設定されている。このように、確信度情報は、検出対象として規定された一連の候補それぞれについて、観測された対象が当該候補である確率が設定されることとなる。すなわち、検出対象の候補が1000種類の場合には、確信度情報として、当該1000種類の候補それぞれである確率が設定された1000次元の情報が出力されることとなる。なお、「手」、「脚立」等のような物に限らず、例えば、「切る」、「刻む」等のような動作や、草木の擦れる音等のような環境音のように、所望の観測装置により観測可能であれば、多様な事象が検出対象の候補として設定され得る。
【0042】
また、
図4に示す例では、学習済モデルから出力された確信度情報に基づき、観測された対象が検出対象として規定された一連の候補それぞれである確率により規定される特徴量ベクトルを抽出している。例えば、検出対象の候補が1000種類の場合には、抽出される特徴量ベクトルは、1000次元のベクトルとなる。また、確信度情報からの特徴量ベクトルの抽出に、機械学習に基づき構築された学習済モデルが適用されてもよい。このような学習済モデルの一例としては、「word2vec」と称されるモデルが一般的に知られている。なお、以降では、上記特徴量ベクトルを、便宜上「単語ベクトル」とも称する。
なお、観測装置310(例えば、撮像装置)による観測結果に応じたデータから抽出された特徴量(例えば、確信度情報)に基づく単語ベクトルが、「第2の特徴量ベクトル」の一例に相当する。
【0043】
次いで、
図4に示す例における、右側に示すフローについて説明する。
図4に示す例において、右側に示すフローは、分類対象の候補となる作業ごとの特徴量の抽出に係る処理フローを示している。本実施形態に係る情報処理システムでは、作業者の周囲の状況の観測結果に基づき、当該作業者が実施している作業が、あらかじめ分類対象の候補として規定された一連の作業のうちのいずれかに分類する。そのため、分類対象の候補として規定された一連の作業それぞれについて、当該作業が実施される際に観測され得る対象(換言すると、当該作業と関連性の高い対象)に関する情報が作業イベントとしてあらかじめ規定されている。
【0044】
例えば、
図4に示す例では、作業イベントとして、対象となる作業が実施される際に観測される道具の道具名、当該作業の実施に際して観測される動作の動作名、及び、当該作業の実施に際して観測される効果音(換言すると、環境音)の効果音名が規定されている。ここで、「剪定」の作業を対象とした場合に着目して、作業イベントとして規定される情報の一例について具体的な例を挙げて説明する。
具体的な一例として、「剪定」の作業においては、当該作業に使用される道具(例えば、被写体として画像中に映り込む対象)として、「ハサミ」、「のこぎり」、「軍手」、「手」、「枝」等が使用される。そのため、これらの道具を示す情報が道具名として規定されている。また、同作業においては、「切る」、「刻む」、「持つ」等の動作が伴う。そのため、これらの動作を示す情報が動作名として規定されている。また、同作業の実施中には、「切る」動作や「刻む」動作により発生する音や「草木音」が観測され得る。そのため、これらの音を示す情報が効果音名として規定されている。
【0045】
なお、作業イベントの規定方法については特に限定はされない。具体的な一例として、管理者が各作業の特徴や実施状況を鑑みて、各作業に対応する作業イベントを規定してもよい。また、他の一例として、各作業の実施状況の観測結果に基づき、当該作業に対応する作業イベントが規定されてもよい。また、既に規定されている作業イベントが、その時々の状況に応じて適宜更新されてもよい。具体的な一例として、管理者からの指示に基づき、少なくとも一部の作業に対応する作業イベントが更新されてもよい。また、他の一例として、少なくとも一部の作業の実施状況に応じた情報が、当該作業に対応する作業イベントにフィードバックされることで、当該作業イベントが更新されてもよい。
【0046】
以上のような前提のもとで、分類対象の候補として規定された作業ごとに、当該作業について規定された作業イベントに基づき、単語ベクトルが抽出される。例えば、
図4に示す「剪定」作業の場合には、対応する作業イベントにおいて道具名、作業名、及び効果音名等として規定された情報を要素として含む単語ベクトルが抽出される。
なお、作業イベントに基づき抽出される単語ベクトルが、「第1の特徴量ベクトル」の一例に相当する。
【0047】
そのうえで、類似度判定部106は、作業者の周囲の状況の撮像結果に応じた画像から抽出された確信度情報に基づく単語ベクトルと、分類対象の候補となる作業ごとに作業イベントに基づき抽出された単語ベクトルとの類似度を判定する。なお、これらの単語ベクトルの類似度の判定方法については、複数のベクトル間の類似度を判定することが可能であれば特に限定はされない。具体的な一例として、類似度判定部106は、上記2つの単語ベクトル間のコサイン類似度を算出することで、当該2つの単語ベクトル間の類似度を判定してもよい。2つのベクトル間のコサイン類似度は、以下に(式1)~(式3)として示す計算式に基づき算出される。また、コサイン類似度は、対象となる2つのベクトルがより類似しているほどより1に近い値を示し、当該2つのベクトルが似ていないほどより-1に近い値を示す。
【0048】
【0049】
ここで、改めて
図3を参照する。重み付け処理部107は、データ解析部103により特徴量の抽出と当該特徴量の関連付けとが行われた一連のデータに対して、分類対象の候補となる作業ごとに、当該一連のデータそれぞれに対する類似度判定部106による類似度の判定結果に基づき重みを設定する。具体的には、重み付け処理部107は、対象となる上記一連のデータのうち、分類対象の候補となる作業との間で、単語ベクトルの類似度がより高いデータほどより優先されるように、当該一連のデータに対して重みを設定する。
【0050】
ここで、重み付け処理部107の処理の一例について、
図5を参照して、対象となるデータが撮像装置による撮像結果に応じた動画像のデータである場合に着目してより詳細に説明する。
図5は、動画像を構成する一連のフレームそれぞれに対応する静止画像に対して、分類対象の候補となる作業ごとに、類似度判定部106による類似度の判定結果に基づき重みを設定する場合の一例について概要を説明するための説明図である。
【0051】
図5に示す例のように、動画像を構成する一連のフレームには、対象となる作業との関連度の高いものと、当該作業との関連度の低いものがある。
例えば、剪定の作業を対象とした場合には、手袋や脚立等のように、当該作業で使用される道具が被写体として映り込んでいるフレームについては、当該作業との関連度がより高い特徴量が抽出される。換言すると、対象となる作業との関連度が高いフレームに対応する静止画像から抽出された単語ベクトルは、当該作業に対応する作業イベントに基づき抽出された単語ベクトルとの類似度がより高い値を示す。このような特性から、対象となる作業との関連度がより高いフレームを利用して、当該フレームに対応する静止画像から抽出される特徴量に基づき作業者が実施している作業の特定を試みた場合には、当該作業が上記対象となる作業に高い確率で分類されることとなる。
一方で、木や草のみが被写体として映り込んでいるフレームについては、当該フレームに対応する画像のみでは、剪定の作業のみに関わらず、他の作業との関連性が推測され得る。そのため、これらのフレームについては、手袋や脚立等が映り込んでいるフレームに比べて、剪定の作業との関連度が低い。換言すると、対象となる作業との関連度が低いフレームに対応する静止画像から抽出された単語ベクトルは、当該作業に対応する作業イベントに基づき抽出された単語ベクトルとの類似度がより低い値を示す。このような特性から、対象となる作業との関連度がより低いフレームを利用して、当該フレームに対応する静止画像から抽出される特徴量に基づき作業者が実施している作業の特定を試みた場合には、当該作業が上記対象となる作業とは異なる他の作業に分類される可能性がある。
【0052】
このような状況下において、例えば、
図5に示す一連のフレームそれぞれに対応する静止画像から抽出された特徴量の平均に基づき、作業者が実施している作業の分類を試みたものとする。
図5に示す例では、上述したように、対象となる一連のフレームの中に、剪定の作業との関連度が低いフレームが含まれている。そのため、上記一連のフレームそれぞれに対応する特徴量を作業者が実施している作業の分類に利用した場合には、関連度の低いフレームの数が多いほど、作業者が実施している作業が剪定の作業であることの確信度がより低くなる。そのため、この場合には、作業者が実施している作業が、剪定の作業とは異なる他の作業に分類される可能性がある。
【0053】
そこで、重み付け処理部107は、分類対象の候補となる作業ごとに、一連のフレームそれぞれに対する単語ベクトルとの類似度の判定結果に基づき、当該類似度がより高いフレームほどより優先されるように、当該一連のフレームに対して重みを設定する。
例えば、
図5に示す例の場合には、重み付け処理部107は、作業者が実施している作業が剪定の作業に分類されるか否かの判定が行われる状況下において、当該剪定の作業と関連度の高いフレームに対応する特徴量がより優先されるように、一連のフレームに重みを設定する。これにより、
図5に示す例において、作業者が実施している作業が剪定の作業に分類されるか否かの判定が行われる場合に、当該剪定の作業との関連度の高いフレームに対応する静止画像から抽出された特徴量がより考慮されることとなる。
【0054】
ここで、改めて
図3を参照する。分類部108は、対象となる一連のデータ、すなわち、データ解析部103により特徴量の抽出と当該特徴量の関連付けとが行われた一連のデータを、当該特徴量に応じて分類する。この際に、分類部108は、対象となる一連のデータを、それぞれが少なくとも1以上のデータを含むようにグループ分けしたうえで、当該一連のデータの分類を当該グループ単位で行ってもよい。この場合には、分類部108は、一連のデータのグループ分けを行う際に、観測タイミングが時系列に沿って連続する所定数のデータが共通のグループに割り当てられるように、当該グループを設定してもよい。また、分類部108は、重み付け処理部107により上記一連のデータに対して設定された重みを考慮して、当該一連のデータの分類を行ってもよい。なお、一連のデータを特徴量に応じて分類することが可能であれば、その方法は特に限定はされない。なお、以降では、クラスタリングと称される技術により、特徴量がより類似するデータが同じグループに分類されるように、一連のデータの分類が行われるものとする。
【0055】
具体的な一例として、分類部108は、動画像を構成する一連のフレームを、撮像タイミング(すなわち、観測タイミング)が時系列に沿って連続する所定数のフレームが共通のグループに割り当てられるように、当該グループを設定してもよい。これにより、上記動画像が撮像された期間(換言すると、観測期間)が、所定の時間幅を有する複数の期間に分割され、各期間について、当該期間に含まれるフレームに対応する静止画像が割り当てられたグループが設定されることとなる。なお、以降の説明では、上記一連のフレームのグループ分けに伴い設定された個々のグループ(すなわち、複数のフレームを含むグループ)を、便宜上、フレームグループとも称する。
そのうえで、分類部108は、各フレームグループを、当該フレームグループに含まれるフレームに対応する特徴量(例えば、単語ベクトル等)に基づき分類する。この際に、分類部108は、フレームグループに含まれる複数のフレームそれぞれに対応する特徴量に基づき、フレームグループごとの特徴量を算出したうえで、当該フレームグループごとの特徴量に基づき当該フレームグループを分類してもよい。
また、分類部108は、フレームグループごとの特徴量の算出に際して、当該フレームグループに含まれる一連のフレームそれぞれに対応する特徴量に設定された重みを考慮してもよい。具体的な一例として、分類部108は、対象となるフレームグループに含まれる一連のフレームが、作業者による剪定の作業の実施状況の撮像結果であることの確信度に関連する特徴量の算出に際し、当該剪定の作業との関連度の高いフレームに対応する特徴量をより優先してもよい。
【0056】
そして、分類部108は、対象となる一連のデータの分類結果を所定の出力先に出力する。具体的な一例として、分類部108は、対象となる一連のデータの分類結果を記憶部110に記憶させてもよい。これにより、記憶部110に記憶された上記一連のデータの分類結果を利用することで、当該データとして記録された情報が観測された環境において、所定の作業者(例えば、観測装置310を装着した作業者)が実施している作業を分類、認識、識別、または推定することが可能となる。
具体的には、対象となるデータがクラスタリング等により分類されたグループの特徴が、分類対象の候補となる一連の作業のいずれかの特徴をより示しているかに応じて、作業者が実施している作業を分類、認識、識別、または推定することが可能である。また、対象となるデータには、観測装置310による観測が行われた日時に関する情報が含まれていてもよい。この場合には、対象となるデータに含まれる上記に日時に関する情報を、作業者が作業を実施していた日時(例えば、作業の開始タイミングや終了タイミング等)の特定に利用することも可能となる。
また、上記の通り、対象となる一連のデータをグループ分けしたうえで、グループごとにデータの分類が行われてもよい。この場合には、上記グループごとに、当該グループに対応する分類結果を利用することで、所定の作業者が実施している作業を分類、認識、識別、または推定することが可能となる。そのため、例えば、一連の観測期間を複数の部分的な期間に分けたうえで、当該複数の部分的な期間それぞれについてグループを設定することで、部分的な期間ごとに作業者が実施している作業を分類、認識、識別、または推定することも可能となる。
【0057】
なお、上述した構成はあくまで一例であり、情報処理システム1の機能構成(特に、サーバ装置100の機能構成)を必ずしも
図3に示す例には限定されない。例えば、サーバ装置100の一連の構成要素が、複数の装置が協働することで実現されてもよい。具体的な一例として、サーバ装置100の一連の構成要素のうち、一部の構成要素が当該サーバ装置100に対して外付けされていてもよい。また、他の一例として、サーバ装置100の一連の構成要素のうち、少なくとも一部の構成要素の処理に係る負荷が、複数の装置に分散されてもよい。
【0058】
以上、
図3~
図5を参照して、本実施形態に係る情報処理システム1の機能構成の一例について、特にサーバ装置100の構成に着目して説明した。
【0059】
<処理>
図6及び
図7を参照して、本実施形態に係る情報処理システム1の処理の一例について、特にサーバ装置100の処理に着目して説明する。
図6は、本実施形態に係るサーバ装置100の処理の一例を示したフローチャートである。なお、
図6に示す例では、観測装置310として動画像を撮像可能な撮像装置が適用され、作業者による作業の実施環境の撮像結果に応じた動画像のデータがサーバ装置100による解析の対象とされるものとする。また、
図7は、動画像の画像データを対象としたサーバ装置100による解析処理の一例について説明するための説明図である。
【0060】
S101において、サーバ装置100は、観測装置310(撮像装置)による撮像結果に応じた動画像の画像データを、当該観測装置310を支持するウェアラブルデバイス300からネットワークを介して取得する。
S102において、サーバ装置100は、S101において取得した動画像の画像データを、当該動画像を構成する一連のフレームそれぞれに対応する静止画像の画像データに分割する。
【0061】
S103において、サーバ装置100は、フレームごとに当該フレームに対応する静止画像から、ウェアラブルデバイス300を装着する作業者の周囲の状況の特徴を示す特徴量を抽出し、当該静止画像の画像データに対して抽出した当該特徴量を示す情報をタグ付けする。ここでは、サーバ装置100は、「Image to Text」と称される技術を利用することで、静止画像に被写体として撮像された対象(例えば、作業に使用される道具等)を示す文字情報を、当該静止画像の画像データにタグ付けするものとする。例えば、
図7に示す例では、動画像を構成する一連のフレームそれぞれについて、当該フレームに対応する静止画像から被写体に関する情報が文字情報として抽出され、抽出された当該被写体に関する文字情報が、特徴量として当該静止画像の画像データにタグ付けされている。
【0062】
S104において、サーバ装置100は、S103においてフレームごとの画像データに対してタグ付けされた情報に基づき、当該画像データに対して重みを設定する。具体的な一例として、サーバ装置100は、フレームごとの画像データに対してタグ付けされた情報に基づく単語ベクトルと、分類対象の候補となる作業ごとの単語ベクトルと、の類似度に基づき、当該画像データに対して重みを設定してもよい。これにより、例えば、対象となる画像データは、対応する静止画像に撮像された被写体の特徴が、類似度の比較対象となる作業との関連度が高いほど、作業者が当該作業を実施している状況を示す確信度がより高いことを示すように重み付けがされる。
【0063】
S105において、サーバ装置100は、対象となる動画像(すなわち、S101において取得した画像データに対応する動画像)の最終フレームまで、S103及びS104として示した解析処理を実行したか否かを判定する。
サーバ装置100は、S105において最終フレームまで解析処理を実行していないと判定した場合には、処理をS103に進める。この場合には、サーバ装置100は、S103及びS104として示した解析処理を施していないフレームを対象として、当該解析処理を実行することとなる。
そして、サーバ装置100は、S105において最終フレームまで解析処理を実行したと判定した場合には、処理をS106に進める。
【0064】
S106において、サーバ装置100は、対象となる動画像(すなわち、S101において取得した画像データに対応する動画像)の一連のフレームを、それぞれが少なくとも1以上のフレームを含むようにグループ分けすることで、フレームグループを設定する。例えば、
図7に示す例では、それぞれが所定数のフレームを含むようにフレームグループFGが複数設定されている。
【0065】
S107において、サーバ装置100は、S106において設定されたフレームグループ単位で、当該フレームグループに含まれる一連のフレームそれぞれに対応する画像データから抽出された特徴量(例えば、単語ベクトル)に基づき画像データの分類を行う。なお、
図6に示す例では、サーバ装置100は、所謂クラスタリングにより、フレームグループ単位で画像データの分類を行うものとする。また、この際にサーバ装置100は、S104において各フレームに対応する画像データに設定された重みを考慮して、対象となるフレームグループについて画像データのクラスタリングを行ってもよい。
S108において、サーバ装置100は、S107における画像データの分類結果(例えば、クラスタリングの結果)を、所定の出力先に出力する。具体的な一例として、サーバ装置100は、当該画像データの分類結果を所定の記憶領域(例えば、記憶部110)に記憶させてもよい。
これにより、サーバ装置100は、上記一連の画像データの分類結果を利用することで、当該画像データとして記録された情報が観測された環境において、観測装置310を装着した作業者が実施している作業を分類、認識、識別、または推定することが可能となる。また、上述の通り、フレームグループ単位で画像データの分類が行われることで、例えば、サーバ装置100は、フレームグループに対応する期間ごとに、当該期間において作業者が実施している作業を分類、認識、識別、または推定することも可能となる。
【0066】
S109において、サーバ装置100は、S106において設定した一連のフレームグループのうちの最終フレームグループまで、S107及びS108として示した解析処理を実行したか否かを判定する。
サーバ装置100は、S109において最終フレームグループまで解析処理を実行していないと判定した場合には、処理をS107に進める。この場合には、サーバ装置100は、S107及びS108として示した解析処理を施していないフレームグループを対象として、当該解析処理を実行することとなる。
そして、サーバ装置100は、S109において最終フレームグループまで解析処理を実行したと判定した場合には、
図6に示す一連の処理を終了する。
【0067】
以上、
図6及び
図7を参照して、本実施形態に係る情報処理システム1の処理の一例について、特にサーバ装置100の処理に着目して説明した。
【0068】
<変形例>
続いて、本実施形態に係る情報処理システムの変形例として、観測装置310としてマイクロフォン等の集音装置を適用することで、当該集音装置による集音結果に応じた音響のデータを解析処理の対象とする場合の一例について説明する。
【0069】
まず、
図8を参照して、観測装置310(集音装置)による集音結果に応じた音響のデータを利用して、作業者の周囲の状況の特徴を示す特徴量を抽出し、当該特徴量を作業者が実施している作業の分類に利用する方法の一例について説明する。
図8は、音響から抽出された特徴量を利用した判定に係る処理の一例として、観測された作業者の周囲の状況と、分類対象の候補となる作業が実施されている場合に想定される作業者の周囲の状況の特徴との類似度の判定に係る処理について概要を示した図である。なお、
図8に示す例では、対象となる音響からの特徴量の抽出に学習済モデルが使用され、当該特徴量として、当該音響が示す対象が、あらかじめ設定された検出対象であることの確からしさを示す確信度情報が抽出されるものとする。
【0070】
まず、
図8に示す例における、左側に示すフローについて説明する。
図8に示す例において、左側に示すフローは、集音装置による作業者の周囲の環境を伝搬する音響の集音結果からの特徴量の抽出に係る処理フローを示している。具体的には、
図8に示す例では、集音結果に応じた音響をスペクトログラム画像に変換し、当該スペクトログラム画像を所定の期間ごとに分割している。そのうえで、分割された期間ごとのスペクトログラム画像を学習済モデルに入力することで、当該スペクトログラムに対応する音響が示す対象が、あらかじめ設定された検出対象であることの確からしさを示す確信度情報が抽出される。
【0071】
ここで、
図9を参照して、スペクトログラム画像について概要を説明する。
図9は、集音装置による集音結果に応じた音響から変換されたスペクトログラム画像の一例を示している。
図9に示すスペクトログラム画像において、横軸は時間を示しており、縦軸は周波数を示している。そのうえで、各ドットの明るさや色により、横軸方向の位置に対応する時間における、縦軸方向の位置に対応する周波数の成分の強さ(振幅)が表されている。
【0072】
ここで、改めて
図8を参照する。
図8に示す例では、剪定の作業においてハサミ等の刃物を利用して枝を切る際に発生する環境音が集音されているものとする。この場合には、確信度情報として、集音結果に応じた音響が、ハサミ等の刃物により枝を「切る音」である確率がより高く設定され、会話等のように実際に集音されていない音響である確率がより低く設定されている。
【0073】
また、
図8に示す例では、学習済モデルから出力された確信度情報に基づき、観測された対象が検出対象として規定された一連の候補それぞれである確率により規定される特徴量ベクトル(すなわち、単語ベクトル)を抽出している。具体的には、検出対象として規定された一連の候補それぞれについて単語ベクトルが抽出され、当該候補ごとの単語ベクトルに対する上記確信度情報における各候補の確信度(換言すると、予測確率)に基づく加重平均により、集音結果に応じた音響に対応する単語ベクトルを抽出している。
【0074】
次いで、
図8に示す例における、右側に示すフローについて説明する。
図8に示す例において、右側に示すフローは、
図4に示す例と同様に、分類対象の候補となる作業ごとの特徴量の抽出に係る処理フローを示している。すなわち、分類対象の候補として規定された作業ごとに、当該作業について規定された作業イベントに基づき、単語ベクトルが抽出される。なお、
図8に示す例では、単語ベクトルの抽出に際して、作業イベントとして規定された情報のうち、「効果音」として規定された情報のように、特に観測され得る音響に関する情報が使用されてもよい。
【0075】
そのうえで、サーバ装置100は、集音装置による作業者の周囲の環境を伝搬する音響の集音結果に応じた確信度情報に基づく単語ベクトルと、分類対象の候補となる作業ごとに作業イベントに基づき抽出された単語ベクトルとの類似度を判定する。このようにして判定された類似度は、前述した実施形態と同様に、対象となるデータ(本変形例の場合には集音結果に応じた音響のデータ)に対する重みの設定に利用される。
【0076】
続いて、
図10を参照して、本変形例に係る情報処理システム1の処理の一例について、特にサーバ装置100の処理に着目して説明する。
図10は、本変形例に係るサーバ装置100の処理の一例を示したフローチャートである。なお、
図10に示す例では、観測装置310として所謂ビデオカメラが適用され、作業者による作業の実施環境の観測結果に応じた動画像及び音響のデータのうち特に音響のデータを対象として、サーバ装置100による解析の対象とされるものとする。
【0077】
S201において、サーバ装置100は、観測装置310(ビデオカメラ)による撮像結果に応じた動画像の画像データを、当該観測装置310を支持するウェアラブルデバイス300からネットワークを介して取得する。なお、当該画像データには、ビデオカメラが備えるマイクロフォン等の集音装置による集音結果に応じた音響のデータが含まれるものとする。
S202において、サーバ装置100は、S201において取得した動画像の画像データから、ビデオカメラが備える集音装置による集音結果に応じた音響のデータを抽出する。
S203において、サーバ装置100は、S202において抽出した音響のデータを、スペクトログラム画像に変換する。
S204において、サーバ装置100は、S203において音響のデータが変換されたスペクトログラム画像を、時系列に沿って所定の長さの期間ごとに分割する。ここでは、サーバ装置100は、対象となるスペクトログラム画像をフレームごとに分割する(すなわち、フレームに対応する期間ごとに分割する)ものとする。
【0078】
S205において、サーバ装置100は、フレームごとに当該フレームに対応するスペクトログラム画像から、ウェアラブルデバイス300を装着する作業者の周囲の状況の特徴を示す特徴量を抽出し、当該スペクトログラム画像のデータに対して抽出した当該特徴量を示す情報をタグ付けする。
【0079】
S206において、サーバ装置100は、S205においてフレームごとのスペクトログラム画像のデータに対してタグ付けされた情報に基づき、当該データに対して重みを設定する。具体的な一例として、サーバ装置100は、フレームごとのスペクトログラム画像のデータに対してタグ付けされた情報に基づく単語ベクトルと、分類対象の候補となる作業ごとの単語ベクトルと、の類似度に基づき、当該データに対して重みを設定してもよい。これにより、例えば、対象となるスペクトログラム画像のデータは、対応する音響の発生要因の特徴が、類似度の比較対象となる作業との関連度が高いほど、作業者が当該作業を実施している状況を示す確信度がより高いことを示すように重み付けがされる。
【0080】
S207において、サーバ装置100は、対象となる音響が集音された期間に対応する一連のフレームのうちの最終フレームまで、S205及びS206として示した解析処理を実行したか否かを判定する。
サーバ装置100は、S207において最終フレームまで解析処理を実行していないと判定した場合には、処理をS205に進める。この場合には、サーバ装置100は、S205及びS206として示した解析処理を施していないフレームを対象として、当該解析処理を実行することとなる。
そして、サーバ装置100は、S207において最終フレームまで解析処理を実行したと判定した場合には、処理をS208に進める。
【0081】
なお、S208~S211の処理については、処理の対象がスペクトログラム画像のデータである点を除けば、
図6を参照して説明した例におけるS106~S109の処理と実質的に同様であるため、詳細な説明は省略する。
【0082】
以上のようにして、フレームごとのスペクトログラム画像(換言すると、当該フレームに対応する期間に集音された音響)が抽出された特徴量に応じて分類される。これにより、サーバ装置100は、上記一連のスペクトログラム画像のデータの分類結果を利用することで、当該データとして記録された情報が観測された環境において、観測装置310を装着した作業者が実施している作業を分類、認識、識別、または推定することが可能となる。また、上述の通り、フレームグループ単位でスペクトログラム画像のデータ(換言すると、当該スペクトログラム画像に変換された音響)の分類が行われることで、例えば、サーバ装置100は、フレームグループに対応する期間ごとに、当該期間において作業者が実施している作業を分類、認識、識別、または推定することも可能となる。
【0083】
なお、
図10に示す例では、集音結果に応じた音響をスペクトログラム画像に変換したうえで当該スペクトログラム画像から特徴量を抽出する場合について示しているが、対象となる音響から集音装置の周囲の状況の特徴を示す特徴量を抽出することが可能であればその方法は限定されない。例えば、音響のデータ自体を解析することで、当該音響の周波数、振幅、位相、及び歪み等の特性に基づき、集音装置の周囲の状況の特徴を示す特徴量が抽出されてもよい。
【0084】
また、
図10に示す例では、ビデオカメラによる撮像結果に応じた動画像の画像データに含まれる音響のデータを、作業者が実施している作業の分類に利用する例について説明したが、当該動画像自体の画像データについても、
図4に示す例と同様の手法により利用することが可能である。
【0085】
また、動画像の画像データを対象とした解析結果と、音響のデータを対象とした解析結果との組み合わせにより、対象となる作業者が実施している作業の分類、認識、識別、または推定が行われてもよい。この場合には、サーバ装置100は、所定の条件(例えば、観測時の条件等)に基づき、動画像の画像データを対象とした解析結果と、音響のデータを対象とした解析結果との間で優先度付けを行ってもよい。
具体的な一例として、夕方や夜間の時間帯に観測が行われた場合には、昼間の時間帯に比べて暗い環境で観測が行われることとなり、撮像結果に応じた画像からの被写体の検出精度が低下し、ひいては作業者の周囲の状況の特徴を示す特徴量の抽出に係る精度が低下する場合がある。そのため、このような状況下では、サーバ装置100は、音響のデータを対象とした解析結果をより優先して、作業者が実施している作業の分類を行ってもよい。
また、他の一例として、雑音の影響が強い環境下においては、検出対象となる音響が雑音によりかき消され、当該音響の解析に係る精度が低下し、結果として作業者の周囲の状況の特徴を示す特徴量の抽出に係る精度が低下する場合がある。そのため、このような状況下では、サーバ装置100は、動画像や静止画像の画像データを対象とした解析結果をより優先して、作業者が実施している作業の分類を行ってもよい。
【0086】
以上、
図8~
図10を参照して、本実施形態に係る情報処理システムの変形例として、観測装置310としてマイクロフォン等の集音装置を適用することで、当該集音装置による集音結果に応じた音響のデータを解析処理の対象とする場合の一例について説明した。
【0087】
<むすび>
以上説明したように、本開示の一実施形態において、情報処理装置(例えば、サーバ装置100)は、所定の主体に装着された観測装置による当該主体の周囲の状況の観測結果に基づくデータに対して、当該観測結果に応じた当該主体の周囲の状況の特徴に関する付帯情報を関連付ける。また、情報処理装置は、分類対象の候補となる作業ごとに、当該作業に対してあらかじめ登録された情報に基づく特徴と、より類似度の高い特徴に関する上記付帯情報が関連付けられたデータがより優先されるように、上記付帯情報が関連付けられた一連のデータに対して重みを設定する。そのうえで、情報処理装置は、分類対象の候補となる作業ごとの上記重みが設定されたデータに基づき、上記主体が実施している作業を分類する。
以上のような構成により、対象となる作業者が実施している作業の分類に際して、当該作業者の周囲の状況の観測結果に応じた一連のデータのうち、当該作業者が実施している作業との関連度がより高いデータから抽出された特徴量がより考慮されるようになる。そのため、本実施形態に係る情報処理システムに依れば、作業者の周囲の状況の観測結果に基づくデータを利用した当該作業者が実施している作業の分類を、より高い精度で実現することが可能となる。
【0088】
なお、上述した実施形態はあくまで一例であり、必ずしも本発明の構成や処理を限定するものではなく、本発明の技術思想を逸脱しない範囲で種々の変形や変更が加えられてもよい。
【0089】
例えば、上述した実施形態や変形例では、作業者が実施している作業を分類、認識、識別、または推定する場合の一例について説明したが、分析の対象については、作業を実施する主体であれば、必ずしも作業者のような所謂人のみには限定されない。具体的な一例として、作業者が各種作業の実施に際して使用するような設備(例えば、作業車両等)を分析の対象として、当該設備が実施している作業(換言すると、作業者が当該設備を使用して実施している作業)の分類、認識、識別、または推定が行われてもよい。
【0090】
また、上述した実施形態や変形例では、対象となる作業者に装着された観測装置を利用して、当該作業者の周囲の状況の観測を行う場合の一例について説明した。一方で、対象となる作業者が作業を実施している状況下において、当該作業者の周囲の状況を観測することが可能であれば、当該観測に利用される観測装置の設置位置は必ずしも限定はされない。具体的な一例として、観測対象となる環境が比較的狭いような状況下においては、当該環境を観測範囲に捕捉することが可能な位置に観測装置(例えば、撮像装置や集音装置等)が設置されてもよい。また、対象となる作業者の周囲の状況の観測に、複数の観測装置が使用されてもよく、撮像装置と集音装置とのように互いに種別の異なる複数の観測装置が使用されてもよい。また、複数の観測装置が使用される状況下では、それぞれが互いに異なる位置に設置された状態で使用されてもよい。
【0091】
また、上述した実施形態や変形例では、対象となる作業者の周囲の状況を視覚的または聴覚的に観測したうえで、当該観測の結果を利用して、当該作業者が実施している作業の分類、認識、識別、または推定を行う場合の一例について説明した。一方で、対象となる作業者の周囲の状況を観測したうえで、当該観測の結果を当該作業者が実施している作業の分類、認識、識別、または推定に利用することが可能であれば、観測対象、観測方法、及び観測のための構成等は特に限定はされない。すなわち、視覚や聴覚以外の他の五感情報を観測結果として取得することで、当該観測結果を、作業者が実施している作業の分類、認識、識別、または推定に利用してもよい。
具体的な一例として、作業者が作業を実施するために道具等の対象物を把持する際の触覚情報や、当該対象物に加わる力覚情報等を観測結果として取得することで、当該観測結果を利用して、当該作業者が実施している作業の分類、認識、識別、または推定を行ってもよい。また、他の一例として、作業者の周囲の臭いを嗅覚情報として検知することが可能であれば、当該嗅覚情報を観測結果として利用することで、当該作業者が実施している作業の分類、認識、識別、または推定を行うことも可能である。
また、前述した視覚情報(撮像結果に応じた画像)と聴覚情報(集音結果に応じた音響)との組み合わせのように、複数のモーダルそれぞれに対応する観測結果を組み合わせて利用することで、作業者が実施している作業の分類、認識、識別、または推定を行うことも可能である。また、この場合には、所定の条件(例えば、観測条件等)に応じて、複数のモーダルそれぞれに対応する観測結果のうち、いずれを作業者が実施している作業の分類、認識、識別、または推定に優先して利用するかに関して優先度付けが行われてもよい。これにより、例えば、作業環境の観測条件に応じて、当該作業環境の状況をより精度よく観測可能なモーダルをより優先させることで、作業者が実施している作業の分類、認識、識別、または推定に係る精度をより向上させる効果が期待できる。
【0092】
また、本発明には、上述した実施形態の機能を実現するプログラム、および、該プログラムを格納したコンピュータが読み取り可能な記録媒体が含まれる。
【符号の説明】
【0093】
1 情報処理システム
100 サーバ装置
101 通信部
102 入出力制御部
103 データ解析部
104 特徴量抽出部
105 付帯処理部
106 類似度判定部
107 重み付け処理部
108 分類部
110 記憶部
200 端末装置
300 ウェアラブルデバイス
310 観測装置