(58)【調査した分野】(Int.Cl.,DB名)
前記抽出部による音の抽出、前記判定部による判定、及び前記設定部による前記区切れ目の設定が、前記作業に含まれる前記動作の数に応じて繰り返し実行されることを特徴とする請求項1又は2に記載の映像解析装置。
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、映像を見ながら各動作の開始時点や終了時点を見つけてマウスをクリックする構成では、例えば作業を構成する動作の数が多くなったり、解析対象の映像が長くなったりすると、解析者に掛かる負担が増し、これが原因となって解析精度に悪影響を及ぼす可能性がある。特に、複数回繰り返し行われる作業を撮影した際の映像を解析する場合には、各回の作業に対して、各動作の開始時点や終了時点を見つけることになり、解析負担が一段と増える。
【0007】
そこで、本発明は、上記の問題に鑑みてなされたものであり、その目的は、作業の映像を解析する映像解析装置として、当該作業を構成する複数の動作の各々の区切り目を容易に見つけることが可能な装置を提供することにある。
また、本発明の他の目的は、コンピュータによって作業の映像を解析する映像解析方法として、当該作業を構成する複数の動作の各々の区切り目を容易に見つけることが可能な方法を提供することにある。
【課題を解決するための手段】
【0008】
前記課題は、本発明の映像解析装置によれば、複数の動作からなる作業を撮影した際の音入り映像を解析する映像解析装置であって、前記音入り映像を取得する映像取得部と、前記動作の区切り目を決めるために前記動作別に設定された設定音に関する設定音情報と、前記動作別に設定された設定画像を示す設定画像データとを記憶している記憶部と、前記音入り映像から前記作業中に発生する音を抽出すると共に、前記音入り映像からフレーム画像を抽出する抽出部と、該抽出部が抽出した音が前記動作別の前記設定音のいずれかとマッチングするかどうかを、前記設定音情報に基づいて判定すると共に、前記抽出部が抽出したフレーム画像が前記動作別の前記設定画像のいずれかとマッチングするかどうかを、前記設定画像データに基づいて判定する判定部と、前記音入り映像に対して設定された時間軸において、ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作の前記区切り目を設定すると共に、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作の前記区切り目を設定する設定部と、を備え
ており、前記動作の開始時点及び終了時点が前記区切り目として設定され、前記記憶部は、前記動作の前記開始時点及び前記終了時点のうち、一方の時点を決めるために前記動作別に設定された前記設定音に関する前記設定音情報と、前記動作の前記開始時点及び前記終了時点のうち、他方の時点を決めるために前記動作別に設定された設定画像を示す設定画像データと、を記憶しており、前記設定部は、前記時間軸において、前記ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作における前記一方の時点を設定すると共に、前記時間軸において、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作における前記他方の時点を設定することにより解決される。
上記のように構成された本発明の映像解析装置では、作業を撮像した音入り映像から当該作業中に発生する音を抽出し、抽出した音がいずれかの設定音とマッチングするかどうかを、設定音情報に基づいて判定する。そして、上記の音入り映像に対して設定された時間軸において、ある動作の設定音とマッチングする音の発生時点を基準として、ある動作の区切り目を設定する。以上の手順により、本発明の映像解析装置は、作業を構成する動作の区切り目を自動的に設定する。この結果、本発明の映像解析装置を用いることにより、解析者が作業の映像を見ながら動作の区切り目を見つける手間を要さず、より容易に動作の区切り目を設定することが可能となる。
また上記の構成によれば、音入り映像から抽出した音やフレーム画像から、動作の区切り目である開始時点や終了時点を設定することになる。これにより、作業を構成する動作の区切り目を自動的に設定する方法についてバリエーションが増え、動作の区切り目を設定する方法についての自由度が高まることになる。
【0010】
また前記課題は、本発明の映像解析装置によれば、複数の動作からなる作業を撮影した際の音入り映像を解析する映像解析装置であって、前記音入り映像を取得する映像取得部と、前記動作の区切り目を決めるために前記動作別に設定された設定音に関する設定音情報を記憶している記憶部と、前記音入り映像から前記作業中に発生する音を抽出する抽出部と、該抽出部が抽出した音が前記動作別の前記設定音のいずれかとマッチングするかどうかを、前記設定音情報に基づいて判定する判定部と、前記音入り映像に対して設定された時間軸において、ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作の前記区切り目を設定する設定部と、を備えており、前記動作別に設定された前記設定音の中には、前記作業を行う作業者が発する音声によって規定された前記設定音と、前記作業に用いられる工具又は装置が発する機械音によって規定された前記設定音とが含まれており、前記記憶部は、前記作業者が発する音声によって規定された前記設定音に関する前記設定音情報を記憶すると共に、前記工具または装置が発する機械音によって規定された前記設定音に関する前記設定音情報を記憶しており、前記設定部は、前記ある動作において前記作業者が前記工具又は装置を用いない場合には、前記音声によって規定された前記設定音によって前記動作の区切り目を決定し、前記ある動作において前記作業者が前記工具又は装置を用いる場合には、前記音声又は前記機械音によって前記動作の区切り目を決定することによっても解決される。
上記の構成によれば、作業者が発する音声に基づいて各動作の区切り目を自動的に設定することが可能となる。
また上記の構成によれば、作業に用いられる工具または装置が発する機械音に基づいて各動作の区切り目を自動的に設定することが可能となる。
【0011】
また、上記の映像解析装置において、前記抽出部による音の抽出、前記判定部による判定、及び前記設定部による前記区切れ目の設定が、前記作業に含まれる前記動作の数に応じて繰り返し実行されるとよい。
上記の構成によれば、作業を構成する複数の動作の各々の区切り目を自動的に設定することが可能となる。
また、上記の映像解析装置において、前記映像取得部は、複数回の前記作業を撮像した際の前記音入り映像を取得し、複数回の前記作業の各々に対して、前記抽出部による音の抽出、前記判定部による判定、及び前記設定部による前記区切れ目の設定が、各々の前記作業に含まれる前記動作の数に応じて繰り返し実行されると更によい。
上記の構成によれば、複数回の作業を撮影した際の映像を解析し、それぞれの作業における各動作の区切り目を自動的に設定することが可能となる。つまり、上記の構成では、より容易に各動作の区切り目を設定するという本発明の効果がより有意義に発揮されることになる。
【0012】
また、上記の映像解析装置において、前記動作の開始時点を決めるための前記設定音、及び、前記動作の終了時点を決めるための前記設定音が、それぞれ前記動作別に設定されており、前記記憶部は、前記開始時点を決めるための前記設定音に関する前記設定音情報、及び、前記終了時点を決めるための前記設定音に関する前記設定音情報を、それぞれ記憶していると尚よい。
上記の構成によれば、各動作の区切り目として、各動作の開始時点及び終了時点を自動的に設定することが可能となる。
【0013】
また、上記の映像解析装置において、前記動作別に設定された前記設定音の中には、前記作業を行う作業者が発する音声によって規定された前記設定音が含まれており、前記記憶部は、前記作業者が発する音声によって規定された前記設定音に関する前記設定音情報を記憶しているとよい。
上記の構成によれば、作業者が発する音声に基づいて各動作の区切り目を自動的に設定することが可能となる。
【0014】
また、上記の映像解析装置において、前記作業者が発する音声によって規定された前記設定音は、登録された前記作業者の人数分だけ設定されており、前記記憶部は、前記作業者が発する音声によって規定された前記設定音に関する前記設定音情報を、登録された前記作業者別に記憶していると更によい。
上記の構成によれば、作業者が発生する音声によって規定された設定音、及び、当該設定音に関する設定音情報が、登録された作業者だけ用意されている。これにより、作業者が変わった場合であっても、各動作の区切り目を適切に且つ自動的に設定することが可能となる。
【0016】
また、上記の映像解析装置において、前記記憶部は、前記設定音情報として、前記設定音の波形に関する情報を記憶しているとよい。
上記の構成によれば、音入り映像から抽出した音と設定音とがマッチングしているかどうかを判定する際に、両者の波形を比較して判定することになる。これにより、上記2つの音がマッチングしているかどうかを適切に判定することが可能となる。
【0017】
また、上記の映像解析装置において、前記動作の開始時点及び終了時点が前記区切り目として設定され、前記記憶部は、前記動作の前記開始時点及び前記終了時点のうち、一方の時点を決めるために前記動作別に設定された前記設定音に関する前記設定音情報と、前記動作の前記開始時点及び前記終了時点のうち、他方の時点を決めるために前記動作別に設定された設定画像を示す設定画像データと、を記憶しており、前記抽出部は、前記音入り映像から前記作業中に発生する音を抽出すると共に、前記音入り映像からフレーム画像を抽出し、前記判定部は、前記抽出部が抽出した音が前記動作別の前記設定音のいずれかとマッチングするかどうかを、前記設定音情報に基づいて判定すると共に、前記抽出部が抽出したフレーム画像が前記動作別の前記設定画像のいずれかとマッチングするかどうかを、前記設定画像データに基づいて判定し、前記設定部は、前記時間軸において、前記ある動作の前記設定音とマッチングする前記音が発生時点を基準として、前記ある動作における前記一方の時点を設定すると共に、前記時間軸において、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作における前記他方の時点を設定するとよい。
上記の構成によれば、音入り映像から抽出した音やフレーム画像から、動作の区切り目である開始時点や終了時点を設定することになる。これにより、作業を構成する動作の区切り目を自動的に設定する方法についてバリエーションが増え、動作の区切り目を設定する方法についての自由度が高まることになる。
【0018】
また、前述した課題は、本発明の映像解析方法によれば、複数の動作からなる作業を撮影した際の音入り映像を解析する映像解析方法であって、コンピュータが、前記音入り映像を取得するステップと、コンピュータが、前記音入り映像から前記作業中に発生する音を抽出すると共に、前記音入り映像からフレーム画像を抽出するステップと、コンピュータが、抽出した音が前記動作の区切り目を決めるために前記動作別に設定された設定音のいずれかとマッチングするかどうかを、記憶部に記憶された前記設定音に関する設定音情報に基づいて判定すると共に、抽出したフレーム画像が前記動作別に設定された設定画像のいずれかとマッチングするかどうかを、記憶部に記憶された前記設定画像を示す設定画像データに基づいて判定するステップと、コンピュータが、前記音入り映像に対して設定された時間軸において、ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作の前記区切り目を設定すると共に、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作の前記区切り目を設定するステップと、を備え
ており、前記動作の開始時点及び終了時点が前記区切り目として設定され、前記記憶部には、前記動作の前記開始時点及び前記終了時点のうち、一方の時点を決めるために前記動作別に設定された前記設定音に関する前記設定音情報と、前記動作の前記開始時点及び前記終了時点のうち、他方の時点を決めるために前記動作別に設定された設定画像を示す設定画像データと、が記憶されており、前記設定するステップでは、前記時間軸において、前記ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作における前記一方の時点を設定すると共に、前記時間軸において、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作における前記他方の時点を設定することにより解決される。
上記の方法によれば、作業を構成する動作の区切り目をコンピュータによって自動的に設定するので、より容易に動作の区切り目を設定することが可能となる。
【発明の効果】
【0019】
本発明の映像解析装置及び映像解析方法によれば、作業を構成する動作の区切り目を自動的に設定することで、容易に動作の区切り目を設定することが可能となる。
【発明を実施するための形態】
【0021】
以下、本発明の一実施形態(本実施形態)について説明する。なお、以下に説明する実施形態は、本発明の理解を容易にするための一例であり、本発明を限定するものではない。すなわち、本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは勿論である。
【0022】
<<本実施形態に係る映像解析装置の概要>>
先ず、本実施形態に係る映像解析装置(以下、映像解析装置1)について、その概要を説明する。映像解析装置1は、作業分析用のツールとして用いられ、より具体的には、作業の所要時間(作業時間)を算出して当該作業の効率等を評価するために用いられる装置である。ここで、「作業」とは、複数の動作からなり、具体的には、作業者が設定された計画や目的の下で行う一連の動作の集まりである。また、「動作」とは、作業を構成する要素に相当し、作業を細分化したときの最小単位である。
【0023】
映像解析装置1の用途について
図1を参照しながら具体的に説明する。
図1は、映像解析装置1を利用している場面を示す図である。映像解析装置1は、
図1に示すようにコンピュータによって構成され、ネットワークNを介してカメラ2と通信可能な状態で接続されている。カメラ2は、集音機能を有する撮像装置であり、作業者3が作業している様子を撮影する。カメラ2が撮影した映像(撮像映像)は、音入り映像であり、厳密には一般的な動画情報である。撮像映像は、データ化(電子ファイル化)された上でネットワークNを通じて映像解析装置1に伝送される。
【0024】
そして、映像解析装置1は、カメラ2から撮像映像を受信すると、撮像映像に映っている作業を分析するために当該撮像映像を解析する処理を実行する。この解析処理において、映像解析装置1は、撮像映像中に含まれる作業の映像を動作毎の映像(以下、要素映像)に区分けし、それぞれの動作の要素映像から当該動作の所要時間(要素時間)を評価し、更に、各動作の要素時間を合算して作業時間を算出する。
【0025】
ちなみに、
図1に図示のケースでは、工場の製造ラインにおいて作業者3が所定の製品(以下、製品6)を製造する上で加工作業を行い、カメラ2が当該加工作業を撮影する。映像解析装置1は、その撮像映像を解析することにより、上記の加工作業を構成する複数の動作のそれぞれについて要素映像を取得し、各動作の要素時間を評価する。
【0026】
なお、
図1に図示のケースでは、上記の加工作業が三つの動作によって構成されており、具体的には、作業者3が製品6を作業台の所定位置にセットする動作(以下、動作A)、作業者3が工具5を用いて製品6を一次研磨する動作(以下、動作B)、及び、作業者3が装置4を用いて二次研磨する動作(以下、動作C)によって構成されている。また、上記の加工作業は、動作A、動作B、動作Cの順で進行することになっている。
【0027】
作業時間をはじめとする映像解析の結果については、映像解析装置1のモニタに表示されることになっている。映像解析装置1のユーザである解析者は、モニタに表示された映像解析の結果を見て、分析対象の作業が効率よく行われているか否かを判定し、改善の必要性がある場合には映像解析装置1を用いて更なる解析を行う。
【0028】
映像解析装置1の用途は、以上までに説明した通りであるが、本実施形態では特に、複数回繰り返し行われる作業を撮像した際の映像を解析し、各々の作業についての分析を行うために用いられることになっている。かかる内容を含め、映像解析装置1の構成については後の項で説明することとする。
【0029】
<<解析対象の映像について>>
次に、映像解析装置1の解析対象となる映像について
図2を参照しながら説明する。
図2は、解析対象の映像についての説明図であり、図中の左側は、作業映像Mt(ハッチングが施された部分)を含むカメラ2の撮像映像Ms全体を示すイメージ図を示しており、図中の右側は、作業映像Mt中の内容(具体的にはフレーム画像)を断片的に図示している。
【0030】
なお、以下では
図1に図示のケース、すなわち、工場の製造ラインにおいて作業者3が製品6に対して加工作業を行っている様子を撮影するケースを例に挙げて説明することとする。なお、以下に説明するケースにおいて、カメラ2は、作業者3が上記の加工作業を繰り返し行っている様子を撮影し、映像解析装置1は、複数回分の加工作業の映像(作業映像Mt)が収録された撮像映像Msを解析することとする。
【0031】
カメラ2の撮像映像Msについて説明すると、当該撮像映像Msの撮影開始時点(映像開始時点に相当)は、複数回分の加工作業のうち、初回の加工作業の開始時点よりも早い時間に設定されている。他方、撮像映像Msの撮影終了時点(映像終了時点に相当)は、複数回分の加工作業のうち、最終回の加工作業の終了時点よりも遅い時間に設定されている。そして、
図2に示すように、撮像映像Msの中には作業映像Mtが複数、具体的には加工作業の実施回数と同じ数だけ含まれている。
【0032】
そして、複数の作業映像Mtを含む撮像映像Msが映像解析装置1の解析対象となる。より具体的に説明すると、撮像映像Ms中から作業映像Mtが特定され、その後、特定された作業映像Mtは、加工作業を構成する複数の動作(すなわち、動作A、B及びC)の要素映像へ区分けされることになっている。区分けされたそれぞれの要素映像については、その開始時点から終了時点までの期間が求められる。この結果、各動作の所要時間(すなわち、要素時間)が明らかになる。
【0033】
なお、
図2の右側に図示された作業映像Mtにおいて、最上段の映像(フレーム画像)は、加工作業の開始時点(換言すると、動作Aの開始時点)の映像を示す。また、上から2段目の映像(フレーム画像)は、動作Aの要素映像を示し、上から3段目の映像(フレーム画像)は、動作Bの要素映像を示し、最下段の映像(フレーム画像)は、動作Cの要素映像を示す。
【0034】
ところで、本実施形態において、映像解析装置1は、撮像映像Msから作業映像Mtを特定する機能を備えると共に、作業映像Mtを自動的に動作別の要素映像に区分けする機能も備えている。かかる点が本実施形態に係る映像解析装置1の特徴である。次項では、かかる特徴を含め、本実施形態に係る映像解析装置1の構成について詳しく説明することとする。
【0035】
<<映像解析装置の構成>>
次に、本実施形態に係る映像解析装置1の構成について説明する。映像解析装置1は、前述したように、コンピュータによって構成されており、具体的にはパソコンやタブレット型端末によって構成されている。映像解析装置1を構成するコンピュータは、CPU、ROMやRAM等のメモリ、ハードディスクドライブ、通信用インタフェース、キーボードやマウス等の入力デバイス、及びモニタ等の出力デバイスを構成機器として備えている。また、ハードディスクドライブには、コンピュータを映像解析装置1として機能させるためのコンピュータプログラム(以下、映像解析プログラム)が格納されている。この映像解析プログラムがCPUによって読み出されて実行されることで、作業分析(映像解析)に係る一連のデータ処理が行われるようになる。
【0036】
ここで、映像解析装置1の構成を機能面から改めて説明すると、映像解析装置1は、
図3に示すように、映像取得部11、記憶部12、抽出部13、判定部14及び設定部15を有する。これらは、映像解析装置1を構成するコンピュータが有する上述のハードウェア機器がソフトウェアとしての映像解析プログラムと協働することによって実現される。なお、
図3は、映像解析装置1の構成を示すブロック図である。
以下、映像取得部11、記憶部12、抽出部13、判定部14及び設定部15のそれぞれについて個別に説明する。
【0037】
(映像取得部)
映像取得部11は、複数回分の作業映像Mtを含んだ撮像映像Msをカメラ2から取得するものである。なお、本実施形態では、映像取得部11がネットワークN経由でカメラ2から直接取得することとしたが、これに限定されるものではなく、撮像映像Msのデータを所謂クラウドサーバに一時的に保管し、当該クラウドサーバから撮像映像Msのデータをダウンロードしてくることとしてもよい。
【0038】
(記憶部)
記憶部12は、映像解析において必要となる情報を記憶するものである。ここで、記憶部12が記憶している情報について説明すると、記憶部12が記憶している情報の中には、作業映像Mtを要素映像に区分するための情報としての設定音情報が含まれている。設定音情報とは、作業における動作の区切り目を決めるために動作別に設定された設定音に関する情報であり、具体的には、設定音の波形に関する情報である。
【0039】
以下、設定音について詳しく説明する。設定音は、前述したように、動作の区切り目を決めるために設定された音であり、具体的には、動作の開始時点や終了時点を決める(特定する)ために設定された識別音である。より具体的に説明すると、本実施形態では、動作A、B、Cのそれぞれに対して、動作の開始時点を決めるための設定音と、動作の終了時点を決めるための設定音と、が設定されている。
【0040】
また、本実施形態に係る設定音は、作業者3が発生する音声、あるいは作業に用いる装置4や工具5が発する機械音によって規定されている。具体的に説明すると、本実施形態において、動作Aの開始時点を決めるための設定音、及び、動作Aの終了時点を決めるための設定音は、登録された作業者3が発する音声によって規定された設定音となっている。より詳しく説明すると、動作Aの開始時点を決めるための設定音については、作業者3が動作Aを開始する際に発する音声によって規定されている。また、動作Aの終了時点を決めるための設定音については、作業者3が動作Aを終了する際に発する音声によって規定される。そして、上記二つの設定音のそれぞれについて、波形情報が設定音情報として記憶部12に記憶されている。
【0041】
さらに、本実施形態では、製品6の加工作業を行う者として複数の作業者3が登録されており、動作Aの開始時点や終了時点を決めるための設定音が、登録された作業者3の人数分だけ設定されている。これに伴い、記憶部12は、上記の設定音に関する設定音情報(波形情報)を、登録された作業者別に記憶している。
【0042】
また、本実施形態において、動作Bの開始時点を決めるための設定音は、動作Bにおいて使用する工具5が発する機械音によって規定された音となっている。より詳しく説明すると、作業者3は、動作Bを開始するに際して工具5を把持し、工具5を製品6に当接させる。このときに発生する機械音が、動作Bの開始時点を決めるための設定音に設定されている。そして、かかる機械音の波形情報が設定音情報として記憶部12に記憶されている。なお、設定音として設定された工具5が発する機械音については、可聴領域の音であってもよく、非可聴領域の音であってもよい。
【0043】
一方、動作Bの終了時点を決めるための設定音は、登録された作業者3が発する音声によって規定された音となっている。より詳しく説明すると、動作Bの終了時点を決めるための設定音は、作業者3が動作Bを終了する際に発する音声によって規定されている。そして、かかる音声の波形情報が設定音情報として記憶部12に記憶されている。なお、本実施形態では、前述したように、製品6の加工作業を行う者として複数の作業者3が登録されているため、動作Bの終了時点を決めるための設定音については、登録された作業者3の人数分だけ設定されている。これに伴い、記憶部12には、上記の設定音に関する設定音情報(波形情報)が登録された作業者別に記憶されている。
【0044】
また、本実施形態において、動作Cの開始時点を決めるための設定音は、動作Cにおいて使用する装置5が発する機械音によって規定された音となっている。より詳しく説明すると、作業者3は、動作Cを開始するに際して、装置4の電源をオンにして装置4を作動させる。このときに発生する機械音(作動音)が動作Cの開始時点を決めるための設定音に設定されている。そして、かかる機械音の波形情報が設定音情報として記憶部12に記憶されている。なお、設定音として設定された装置4が発する機械音については、可聴領域の音であってもよく、非可聴領域の音であってもよい。
【0045】
一方、動作Cの終了時点を決めるための設定音は、登録された作業者3が発する音声によって規定された音となっている。より詳しく説明すると、動作Cの終了時点を決めるための設定音は、作業者3が動作Cを終了する際に発する音声によって規定されている。そして、かかる音声の波形情報が設定音情報として記憶部12に記憶されている。なお、動作Cの終了時点を決めるための設定音についても、登録された作業者3の人数分だけ設定されている。これに伴い、記憶部12には、上記の設定音に関する設定音情報(波形情報)が登録された作業者別に記憶されている。
【0046】
なお、上記の内容は、各動作の区切り目を決めるために設定される設定音の一例に過ぎず、当然ながら上記の内容以外であってもよい。また、設定音については、作業者3が発する音声や合図音(例えば、動作開始時又は終了時に鳴るチャイムやベル音)のように意図的に発せられる音であってもよく、あるいは、装置4や工具5が発する機械音のように動作に付随(連動)して発せられる音であってもよい。
【0047】
(抽出部)
抽出部13は、撮像映像Msから作業中に発生する音を抽出するものである。具体的に説明すると、予め音抽出条件が設定されており、抽出部13は、撮像映像Msにおいて当該音抽出条件を満たす音が流れる(再生される)と、その音を検知し、抽出対象として抽出する。なお、音抽出条件は、音量、音色若しくは音域を基準として設定されることになっており、本実施形態では、所定の音量以上の音であることが音抽出条件として設定されている。
【0048】
(判定部)
判定部14は、抽出部13が抽出した音がいずれかの設定音とマッチングするかどうかを、記憶部12に記憶された設定音情報に基づいて判定するものである。具体的に説明すると、判定部14は、抽出部13が抽出した音の波形を特定する。その後、判定部14は、記憶部12に設定音情報として記憶された波形情報を順次読み出し、読み出した波形情報と抽出音の波形情報とを対比し、両者間のマッチング度合いを評価する。そして、判定部14は、評価したマッチング度合いが閾値(予め設定された基準値)を超えているか否かを確認する。確認の結果、上記のマッチング度合いが閾値を超えている場合、判定部14は、抽出音がそのときの設定音とマッチングしていると判定する。
【0049】
なお、マッチング度合いを評価する方法については、特に限定されるものではなく、音同士のマッチング度合いを評価する方法として好適な方法を利用すればよい。ちなみに、本実施形態では、マッチング度合いを評価する際に声紋認証の技術が適用されている。具体的に説明すると、判定部13は、抽出音の波形情報として、当該抽出音の周波数構成をパターン化(スペクトル化)した「声紋」を特定する。一方で、記録部12には、各設定音の波形情報としての「声紋」が記憶されている。判定部13は、抽出音の声紋と設定音の声紋とを対比して、両者のマッチング度合いを評価する。このような方法であれば、抽出音が設定音と合致するかどうかを適切に判断し得ると共に、合致する設定音が作業者3の音声によって規定されている音である場合には、誰の音声であるかを特定することも可能となる。
【0050】
ただし、マッチング度合いを評価する方法については、声紋認証の技術を用いた方法以外にも考えられ、例えば、音声認識及び自然言語処理の技術を用いた方法を利用してもよい。具体的に説明すると、抽出音が作業者3の音声によって規定された音である場合、その音声が意味する言語(単語や語句)を特定する。その一方で、記憶部12には、設定音の情報(厳密には、作業者3の音声によって規定される設定音に関する情報)として、当該設定音が意味する言語(単語や語句)が記憶されている。そして、抽出音から特定した言語と、設定音情報として記憶されている言語とを比較することにより、マッチング度合いを評価することとしてもよい。
【0051】
(設定部)
設定部15は、撮像映像Msに対して設定された時間軸において、ある動作の設定音とマッチングする音(抽出音)の発生時点を基準として、ある動作の区切り目を設定するものである。具体的に説明すると、設定部15は、撮像映像Msにおいて作業映像Mtに該当する映像を特定し、特定した当該映像の中で動作A、B、Cの区切り目、具体的には各動作の開始時点及び終了時点を設定する。
【0052】
以下、設定部15による区切り目の設定の手順について
図4及び5を参照しながら説明することとする。
図4は、動作の区切り目に関する説明図であり、図中の上図は、撮像映像Msの時間軸を示す図であり、下図は、撮像映像Msの時間軸において作業映像Mtに当たる期間を拡大した図である。
図5は、動作の区切り目を設定する手順を示す図であり、作業映像Mtを各動作の要素映像に分割したところのイメージ図である。なお、
図5中、作業映像Mtを構成するセル(升目)は、作業映像Mtにおける断片映像(厳密には、フレーム画像)を表しているが、図示の都合上、同図では、上記の断片映像の数が実際の数よりも幾分少なくなっている。
【0053】
設定部15は、撮像映像Msの時間軸において作業映像Mtに当たる期間(以下、作業映像Mtの期間)を特定する。より具体的に説明すると、設定部15は、撮像映像Msの開始点(映像開始点)から終了点(映像終了点)までの期間中、作業映像Mtの期間T、すなわち、加工作業の開始時点から終了時点までの期間を特定する。なお、本実施形態では、
図4に示すように、撮像映像Ms中に複数の作業映像Mtが含まれている。このため、本実施形態では、撮像映像Msの時間軸において作業映像Mtの期間Tを特定する処理を、撮像映像Ms中に含まれている作業映像Mtの数と同じ数だけ、繰り返し実行することになる。
【0054】
ここで、撮像映像Msの時間軸において作業映像Mtの期間Tを特定する手順について説明すると、設定部15は、作業映像Mtの期間Tの始点及び終点を定めることにより、当該期間Tを特定する。より分かり易く説明すると、本実施形態では、動作Aの開始時点が作業映像Mtの期間Tの始点として設定されており、動作Cの終了時点が作業映像Mtの期間Tの終点として設定されている。つまり、撮像映像Msの時間軸において動作Aの開始時点と動作Cの終了時点とを設定することにより、作業映像Mtの期間Tが特定されることになる。
【0055】
そして、動作Aの開始時点及び動作Cの終了時点の各々は、判定部14による判定結果に基づいて設定されることになっている。具体的に説明すると、動作Aの開始時点を決めるために設定された設定音、すなわち、作業者3が動作Aを開始する際に発する音声とマッチングする音(以下、一次開始音)が判定部14による判定によって見つけられたとする。かかる場合、撮像映像Msの時間軸において一次開始音の発生時点ta1が割り出される。このようにして割り出された一次開始音の発生時点ta1は、
図4に示すように、動作Aの開始時点として設定されることになる。
【0056】
同様に、動作Cの終了時点を決めるために設定された設定音、すなわち、作業者3が動作Cを終了する際に発する音声とマッチングする音(以下、三次終了音)が判定部14による判定によって見つけられた場合、撮像映像Msの時間軸において三次終了音の発生時点tc2が割り出される。そして、割り出された三次終了音の発生時点tc2は、
図4に示すように、動作Cの終了時点として設定されることになる。
【0057】
以上のような手順により、撮像映像Msの時間軸においてすべての動作Aの開始時点及びすべての動作Cの終了時点を設定することにより、撮像映像Msに含まれる作業映像Mtの期間Tがすべて特定されることになる。
【0058】
その後、設定部15は、特定した作業映像Mtの期間Tにおいて動作A、B、Cの各々の区切り目(すなわち、開始時点及び終了時点)を設定する。この際、各動作の区切り目の設定については、上述した動作Aの開始時点や動作Cの終了時点を設定したときと同様の手順にて行われる。具体的に説明すると、動作Aの終了時点を決めるために設定された設定音、すなわち、作業者3が動作Aを終了する際に発する音声とマッチングする音(以下、一次終了音)を判定部14による判定によって見つけ、当該一次終了音の発生時点ta2を動作Aの終了時点として設定する。
【0059】
また、動作Bの開始時点を決めるために設定された設定音、すなわち、工具5が発する機械音とマッチングする音(以下、二次開始音)を判定部14による判定によって見つけ、当該二次開始音の発生時点tb1を動作Bの開始時点として設定する。また、動作Bの終了時点を決めるために設定された設定音、すなわち、作業者3が動作Bを終了する際に発する音声とマッチングする音(以下、二次終了音)を判定部14による判定によって見つけ、当該二次終了音の発生時点tb2を動作Bの終了時点として設定する。
【0060】
さらに、動作Cの開始時点を決めるために設定された設定音、すなわち、装置4が発する機械音とマッチングする音(以下、三次開始音)を判定部14による判定によって見つけ、当該三次開始音の発生時点tc1を動作Cの開始時点として設定する。
【0061】
なお、本実施形態では、設定音とマッチングする音の発生時点を動作の区切り目として設定することとしたが、これに限定されるものではない。つまり、設定音とマッチングする音の発生時点を基準として動作の区切り目を設定するものであればよいのであり、例えば、設定音とマッチングする音の発生時点から所定秒数だけ遡った時点を、その動作の区切り目として設定してもよい。反対に、設定音とマッチングする音の発生時点から所定秒数だけ経過した時点を、その動作の区切り目として設定してもよい。
【0062】
以上までの手順により、作業映像Mtの期間Tにおいて各動作の区切り目が設定される。この結果、作業映像Mtが各動作の要素映像に区分けされるようになる。具体的に説明すると、
図5に示すように、作業映像Mtの期間Tにおいて一次開始音の発生時点ta1から一次終了音の発生時点ta2までの期間の映像を動作Aの要素映像Maとする。同様に、二次開始音の発生時点tb1から二次終了音の発生時点tb2までの期間の映像を動作Bの要素映像Mbとする。また、三次開始音の発生時点tc1から三次終了音の発生時点tc2までの期間の映像を動作Cの要素映像Mcとする。
【0063】
<<映像解析処理の流れ>>
次に、映像解析装置1によって実行される映像解析処理の流れについて説明する。なお、映像解析処理では、本発明の映像解析方法が採用されている。つまり、以下に説明する映像解析処理の内容には、本発明の映像解析方法の説明が含まれている。そして、
図6に図示した映像解析処理における各ステップは、本発明の映像解析方法を構成するステップに相当する。
図6は、映像解析処理の流れを示す図である。
【0064】
映像解析処理は、
図6に示すように、映像解析装置1をなすコンピュータがカメラ2の撮像映像Msを取得するところから始まる(S001)。この撮像映像Msは、複数回繰り返された加工作業の様子を収録しており、換言すると、撮像映像Msには複数回分の作業映像Mtが含まれている。
【0065】
次に、映像解析装置1をなすコンピュータは、取得した撮像映像Msにおいて流れている音の中から、音抽出条件を満たす音を抽出する(S002)。これと共に、映像解析装置1をなすコンピュータは、記憶部12に記憶された動作別の設定音情報を読み出す(S003)。そして、映像解析装置1をなすコンピュータは、ステップS002で抽出した音と、ステップS003で読み出した設定音情報により特定される設定音と、がマッチングするか否かを判定する(S004)。
【0066】
より具体的に説明すると、映像解析装置1をなすコンピュータは、抽出音の波形情報を特定すると、当該抽出音の波形情報と、読み出した設定音情報が示す設定音の波形情報と、を対比する。このような波形情報の対比は、
図7に示すように、記憶部12から読み出す設定音情報を変えながら、抽出音とマッチングする設定音が見つかるまで繰り返し行われる。なお、抽出音とマッチングする設定音が見つからなかった場合には、音抽出条件を満たす音を改めて抽出し直すことになる。
【0067】
他方、抽出音がいずれかの設定音(
図7に図示のケースでは「設定音2」)とマッチングすると判定したとき、映像解析装置1をなすコンピュータは、撮像映像Msの時間軸において上記抽出音の発生時点を動作の区切り目として設定する(S005)。ここで、設定される動作の区切り目は、マッチングする設定音の種類(内容)に応じて決められる。具体的に説明すると、例えば、抽出音が一次開始音(すなわち、動作Aの開始時点を決めるための設定音)とマッチングする場合、当該抽出音の発生時点を動作Aの開始時点として設定することになる。
【0068】
そして、映像解析装置1をなすコンピュータは、撮像映像Ms取得後の一連のステップ(具体的にはステップS002〜S005)を、すべての動作の区切り目が設定されるまで繰り返し実行する(S006)。すなわち、本実施形態では、動作A、B、Cの各々の開始時点及び終了時点が設定されるまで、音を抽出するステップ、抽出音と設定音とがマッチングするか否かを判定するステップ、及び動作の区切り目を設定するステップが繰り返し実行されることになっている。換言すると、上記一連のステップは、加工作業に含まれる動作の数に応じた回数、具体的には、6回(=動作の数「3」×各動作の区切り目の数「2」)だけ繰り返し実行されることになる。
【0069】
また、本実施形態では、前述したように、撮像映像Ms中に複数の作業映像Mtが含まれている。このため、本実施形態では、すべての作業映像Mtに対して各動作の区切り目の設定が完了するまで、上記一連のステップが繰り返し実行されることになる(S007)。そして、すべての作業映像Mtに対して各動作の区切り目が設定された後に、映像解析装置1をなすコンピュータが所定の終了操作を受け付けると、その時点で映像解析処理が終了する。
【0070】
以上までに説明してきたように、映像解析処理では、加工作業を構成する複数の動作(すなわち、動作A、B、C)の各々について区切り目を自動的に設定する。このため、解析者が撮像映像Msを見ながら各動作の区切り目を見つける手間を要さず、容易に各動作の区切り目を設定することが可能となる。また、上述した手順によって各動作の区切り目が設定されることにより、解析者の技量に依存すくことなく、画一的に各動作の区切り目を設定することが可能となる。以上に述べた効果は、本実施形態のように加工作業を複数回繰り返し行ったときの撮像映像Msを解析する場合において、特に有効である。
【0071】
さらに、本実施形態では、作業者3の声(音声)によって規定される設定音が、登録された作業者3の人数分だけ設定されている。このような構成であれば、加工作業が繰り返し行われる中で作業者3が交代したとき、この事を考慮して各動作の区切り目を適切に設定することが可能となる。
【0072】
<<その他の実施形態>>
上記の実施形態では、本発明の映像解析装置及び映像解析方法について具体例を挙げて説明した。しかしながら、上記の実施形態は本発明の一例に過ぎず、上記以外の実施形態も考えられる。例えば、上記の実施形態では、ライン生産にて所定の製品を生産するときに行われる加工作業を作業の一例として挙げて説明した。すなわち、上記の実施形態では、上記の加工作業を撮影した撮像映像Msを解析する映像解析装置について説明した。ただし、これに限定されるものではなく、本発明の映像解析装置が解析対象とする作業の映像については、ライン生産における加工作業以外の作業の映像、またはセル生産にて製品を生産するときに行われる各種作業の映像であってもよい。あるいは、製品の生産を伴わない類の作業の映像、例えば、事務作業の映像を解析する際にも本発明の映像解析装置は有効である。また、作業には、業務として行われる作業以外の作業(例えば、スポーツや料理)が含まれ、そのような類の映像を解析する際にも本発明の映像解析装置は有効である。また、作業には、人が介在しない作業(例えば、ロボットや装置のみによって行われる作業)が含まれ、そのような類の映像を解析する際にも本発明の映像解析装置は有効である。
【0073】
また、上記の実施形態では、作業を構成する動作の数が三つであることとしたが、作業を構成する動作の数については特に制限がなく、二以上の数である限り、任意の数に設定することが可能である。
【0074】
また、上記の実施形態では、各動作の開始時点及び終了時点のいずれもが、設定音とマッチングする音の発生時点を基準として設定されることとした。ただし、これに限定されるものではなく、各動作の開始時点及び終了時点のうち、一方の時点については、上記の実施形態と同様、設定音とマッチングする音の発生時点を基準として設定されるのに対し、もう一方の時点については異なる方法にて設定されてもよい。かかる構成(変形例)について、以下、
図8及び9を参照しながら説明することとする。
図8は、変形例に係る映像解析処理の流れを示す図である。
図9は、変形例に係る映像解析処理において動作の区切り目を設定する手順を示す図である。なお、以下では、上記の実施形態と重複する内容ついては説明を省略し、上記の実施形態と異なる内容を中心に説明することとする。
【0075】
変形例では、動作の区切り目である開始時点及び終了時点のうち、開始時点を設定する際には、上記の実施形態と同様、設定音とマッチングする音の発生時点を基準にして開始時点を設定する。その一方で、終了時点を設定する際には、当該終了時点を決めるために動作別に設定された設定画像を参照し、撮像映像Msの中から設定画像とマッチングするフレーム画像を見つけ、撮像映像Msの時間軸においてフレーム画像が映し出される時点(以下、画像表示時点)を基準にして終了時点を設定する。
【0076】
ここで、設定画像とは、動作の終了時点における作業者3、装置4又は工具5、若しくは製品6の状態、位置、姿勢を示す画像であり、動作別に設定されている。また、記憶部12には各設定画像の画像データが記憶されている。そして、映像解析装置1をなすコンピュータ(厳密には、抽出部13)は、撮像映像Msの中から逐次フレーム画像を抽出する。また、フレーム画像を抽出する都度、上記のコンピュータ(厳密には、判定部14)は、抽出画像(抽出されたフレーム画像)と上記の設定画像とを対比して両画像間のマッチング度合いを評価する。なお、画像間のマッチング度合いを評価する方法については、特に制限されるものではなく、例えば公知の画像処理技術を適用してマッチング度合いを評価することが可能である。
【0077】
変形例に係る映像解析処理の手順について説明すると、当該映像解析処理は、
図8に示すように、映像解析装置1をなすコンピュータがカメラ2の撮像映像Msを取得するところから始まる(S011)。その後、映像解析装置1をなすコンピュータは、取得した撮像映像Msにおいて流れている音の中から音抽出条件を満たす音を抽出すると共に(S012)、記憶部12に記憶された動作別の設定音情報を読み出す(S013)。この際に読み出される設定音情報は、各動作の開始時点を決めるための設定音に関する情報(波形情報)である。
【0078】
そして、映像解析装置1をなすコンピュータは、抽出音と設定音情報により特定される設定音とがマッチングするか否かを判定する(S014)。この際、抽出音がいずれかの設定音とマッチングすると判定したとき、映像解析装置1をなすコンピュータは、撮像映像Msの時間軸において上記抽出音の発生時点を動作の開始時点として設定する(S015)。具体的には、抽出音の発生時点を、当該抽出音とマッチングする設定音と対応する動作、の開始時点として設定する。
【0079】
その後、映像解析装置1をなすコンピュータは、撮像映像Msの中から各フレーム画像(厳密には、設定音とマッチングした抽出音の発生時点以降に映し出されるフレーム画像)を抽出すると共に(S016)、記憶部12に記憶された設定画像を参照する(S017)。そして、映像解析装置1をなすコンピュータは、抽出画像と上記の設定画像とを対比し、両画像がマッチングするか否かを判定する(S018)。ここで、画像の対比は、
図9に示すように、参照する設定画像を変えながら、抽出画像とマッチングする設定画像が見つかるまで繰り返し行われる。
【0080】
上記の判定において抽出画像がいずれかの設定画像(
図9に図示のケースでは「設定画像3」)とマッチングすると判定したとき、映像解析装置1をなすコンピュータ(厳密には、設定部15)は、撮像映像Msの時間軸において上記抽出画像の画像表示時点を動作の終了時点として設定する(S019)。具体的には、抽出画像の画像表示時点を、当該抽出画像とマッチングする設定画像と対応する動作、の終了時点として設定する。
【0081】
そして、撮像映像Ms取得後の一連のステップ(すなわち、ステップS012〜S019)を、すべての動作の開始時点及び終了時点が設定されるまで繰り返し実行する(S020)。さらに、すべての作業映像Mtに対して各動作の区切り目の設定が完了するまで、上記一連のステップが繰り返し実行されることになる(S021)。最終的に、すべての作業映像Mtに対して各動作の区切り目(開始時点及び終了時点)が設定された後に、映像解析装置1をなすコンピュータが所定の終了操作を受け付けると、その時点で映像解析処理が終了する。
【0082】
以上のように動作の区切り目である開始時点及び終了時点のうちの一方の時点を設定する際に、撮像映像Msの中から抽出したフレーム画像と設定画像とのマッチング度合いを評価し、当該設定画像とマッチングする抽出画像の画像表示時点を基準として上記一方の時点を設定してもよい。あるいは、動作の開始時点及び終了時点のうちの一方の時点について、その時点における特徴的な検知対象(例えば、作業者3の立ち位置や製品6が置かれている位置)を検知するセンサを用い、センサが当該検知対象と検知した時点を基準として上記一方の時点を設定してもよい。
【0083】
また、上記の実施形態では、作業を構成する動作のすべてについて区切り目(開始時点及び終了時点)を自動的に設定することとしたが、これに限定されるものではない。本発明は、作業を構成する複数の動作のうち、少なくとも一つについて区切り目を自動的に設定するものであり、上記複数の動作のうちの一部のみの区切り目を設定する際に本発明を適用してもよい。