(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023078983
(43)【公開日】2023-06-07
(54)【発明の名称】作業管理方法またはシステム
(51)【国際特許分類】
G06Q 50/04 20120101AFI20230531BHJP
G05B 19/418 20060101ALI20230531BHJP
【FI】
G06Q50/04
G05B19/418 Z
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021192348
(22)【出願日】2021-11-26
(71)【出願人】
【識別番号】599126800
【氏名又は名称】株式会社エムティーアイ
(74)【代理人】
【識別番号】110000176
【氏名又は名称】弁理士法人一色国際特許事務所
(72)【発明者】
【氏名】周 旗城
【テーマコード(参考)】
3C100
5L049
【Fターム(参考)】
3C100AA38
3C100BB14
3C100BB17
3C100BB34
5L049CC03
(57)【要約】
【課題】労力をかけずに工程を把握できる方法またはシステムの提供。
【解決手段】1以上の演算装置を含むシステムで実行される方法であって、複数の工程で構成される第1作業を記録した第1動画を再生する処理と、前記第1動画に表示される前記第1作業を説明者に口頭で説明させ、前記説明者の音声を取得する処理と、前記音声を解析させ、前記複数の工程それぞれにかかる時間を示す第1工程時間セットを計測する計測処理と、を含む方法。
【選択図】
図8
【特許請求の範囲】
【請求項1】
1以上の演算装置を含むシステムで実行される方法であって、
複数の工程で構成される第1作業を記録した第1動画を再生する処理と、
前記第1動画に表示される前記第1作業を説明者に口頭で説明させ、前記説明者の音声を取得する処理と、
前記音声を解析し、前記複数の工程それぞれにかかる時間を示す第1工程時間セットを計測する計測処理と、を含む方法。
【請求項2】
前記計測処理において、
前記音声の継続時間に基づいて前記複数の工程それぞれにかかる時間が計測される、請求項1に記載の方法。
【請求項3】
前記音声を解析し、前記複数の工程それぞれの名称を示す第1名称セットを文字として取得する処理をさらに含む、請求項1または2に記載の方法。
【請求項4】
前記第1名称セットの各名称と、前記第1工程時間セットの各時間とを関連付けして示す工程表を作成する処理をさらに含む、請求項3に記載の方法。
【請求項5】
前記第1動画、前記第1名称セット、及び前記第1工程時間セットを用いて学習用データを作成する処理と、
前記学習用データを用いて前記演算装置を学習させ、学習済みモデルを作成する処理と、
をさらに含む、請求項3または4に記載の方法。
【請求項6】
前記学習済みモデルは、
複数の工程で構成される第2作業を記録した第2動画を読み込む処理と、
前記第2作業を構成する複数の工程それぞれの名称を示す第2名称セット、及び、前記第2作業の各工程にかかる時間を示す第2工程時間セットを推定する推定処理と、
を実行する、請求項5に記載の方法。
【請求項7】
前記学習済みモデルは、
前記第2名称セットの各名称と、前記第2工程時間セットの各時間とを関連付けして示す工程表を作成する処理をさらに実行する、請求項6に記載の方法。
【請求項8】
前記学習済みモデルは、前記推定処理において、
前記第2動画をエッジ処理した画像を取得する処理と、
前記画像の特徴量を取得する処理と、
前記画像に基づき前記第2名称セット及び前記第2工程時間セットの少なくとも1つを推定する処理と、
を実行する、請求項6または7に記載の方法。
【請求項9】
1以上の演算装置を含むシステムであって、
複数の工程で構成される第1作業を記録した第1動画を再生する処理と、
前記第1動画に表示される前記第1作業を説明者に口頭で説明させ、前記説明者の音声を取得する処理と、
前記音声を解析し、前記複数の工程それぞれにかかる時間を示す第1工程時間セットを計測する計測処理と、を実行するシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、作業管理方法またはシステムに関する。
【背景技術】
【0002】
作業工程を管理する装置が従来技術として知られている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、上記の技術においては、労力をかけずに各工程にかかる時間または工程名称を正確に把握し、工程表を立案することは難しかった。
【課題を解決するための手段】
【0005】
このような課題を鑑み、本発明は一態様として、1以上の演算装置を含むシステムで実行される方法であって、複数の工程で構成される第1作業を記録した第1動画を再生する処理と、前記第1動画に表示される前記第1作業を説明者に口頭で説明させ、前記説明者の音声を取得する処理と、前記音声を解析させ、前記複数の工程それぞれにかかる時間を示す第1工程時間セットを計測する計測処理と、を含む方法を提供する。
【発明の効果】
【0006】
労力をかけずに工程を把握できる方法またはシステムの提供が可能である。
【図面の簡単な説明】
【0007】
【
図1】本実施形態に係る情報処理システムの全体構成図である。
【
図2】本実施形態に係る情報処理装置のハードウェア構成を示す図である。
【
図3】本実施形態に係る(a)配信サーバ及び(b)機械学習サーバの機能構成を示す図である。
【
図4】本実施形態に係る学習器の構造を示す図である。
【
図6】本実施形態に係る学習用データを示す図である。
【
図7】本実施形態に係る工程表作成処理を示すシークエンス図である。
【
図8】本実施形態に係る音声解析の概要を示す図である。
【
図9】本実施形態に係る処理において作成された工程表を示す図である。
【
図10】本実施形態に係る学習処理を示すフローチャートである。
【
図11】本実施形態における、画像処理の概要を示す図である。
【
図12】本実施形態における、推定処理を示すフローチャートである。
【発明を実施するための形態】
【0008】
本明細書および添付図面の記載により、少なくとも以下の事項が明らかとなる。以下、本発明をその一実施形態に即して添付図面を参照しつつ説明する。
【0009】
図1に本発明の一実施形態に係る情報処理システム1の構成を示す。情報処理システム1は、配信サーバ10、機械学習サーバ20、撮影装置40、および一つ以上のユーザ端末30の各演算装置を含む。配信サーバ10、機械学習サーバ20、撮影装置40、およびユーザ端末30は、通信ネットワーク5を介して互いにデータの送受信が可能となるように接続されている。通信ネットワーク5は、無線方式または有線方式の通信手段であり、例えば、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)、公衆通信網、専用線等である。なお、本実施形態による情報処理システム1は上記複数の情報管理装置によって構成されているが、本発明はこれらの装置の数を限定するものではない。そのため、情報処理システム1は、以下のような機能を備えるものであれば、1以上の装置によって構成することができる。
【0010】
ユーザ端末30は、ユーザ(作業者や後述の説明者など)によって操作される情報処理装置であり、例えば、スマートフォン、タブレット、携帯電話機、パーソナルコンピュータ等である。
【0011】
配信サーバ10は、製品の組立や構造物の工事など人間やロボットによって実行される各種作業に関し、工程を管理し、工程表を作成する機能を有する情報処理装置である。
【0012】
機械学習サーバ20は、機械学習を実行して学習モデルを作成する機能、及び、学習モデルを用いて工程表を作成する機能を有する。
【0013】
撮影装置40は、作業を撮影して動画を生成する機能を有する装置であり、例えば、デジタルビデオカメラなどが該当する。
【0014】
図2は、配信サーバ10、機械学習サーバ20、及びユーザ端末30の実現に用いるハードウェア(以下、「情報処理装置100」と称する。)の一例である。同図に示すように、情報処理装置100は、プロセッサ101、主記憶装置102、補助記憶装置103、入力装置104、出力装置105、および通信装置106を備える。これらは図示しないバス等の通信手段を介して互いに通信可能に接続されている。
【0015】
尚、情報処理装置100は、その全ての構成が必ずしもハードウェアで実現されている必要はなく、構成の全部又は一部が、例えば、クラウドシステム(cloud system)のクラウドサーバ(cloud server)のような仮想的な資源によって実現されていてもよい。
【0016】
プロセッサ101は、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等を用いて構成される。プロセッサ101が、主記憶装置102に格納されているプログラムを読み出して実行することにより、配信サーバ10や機械学習サーバ20、ユーザ端末30及び撮影装置40の機能が実現される。
【0017】
主記憶装置102は、プログラムやデータを記憶する装置であり、ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発性半導体メモリ(NVRAM(Non Volatile RAM))等である。
【0018】
補助記憶装置103は、例えば、SSD(Solid State Drive)、SDメモリカード等の各種不揮発性メモリ(NVRAM:Non-volatile memory)、ハードディスクドライブ、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、クラウドサーバの記憶領域等である。補助記憶装置103に格納されているプログラムやデータは主記憶装置102に随時読み込まれる。
【0019】
入力装置104は、情報の入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置(マイクロフォン等)、音声認識装置等である。情報処理装置100が通信装置106を介して他の装置との間で情報の入力を受け付ける構成としてもよい。
【0020】
出力装置105は、各種の情報を出力するインタフェースであり、例えば、画面表示装置(液晶モニタ、LCD(Liquid Crystal Display)、グラフィックカード等)、印字装置等)、音声出力装置(スピーカ等)、音声合成装置等である。情報処理装置100が通信装置106を介して他の装置との間で情報の出力を行う構成としてもよい。
【0021】
通信装置106は、通信ネットワーク5を介した他の装置との間の通信を実現する有線方式又は無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USB(Universal Serial Interface)モジュール、シリアル通信モジュール等である。
【0022】
〔配信サーバの機能構成〕
図3(a)に配信サーバ10が備える主な機能(ソフトウェア構成)を示す。同図に示すように、配信サーバ10は、記憶領域110、管理部120の各機能を備える。これらの機能は、配信サーバ10のプロセッサ101が配信サーバ10の主記憶装置102または補助記憶装置103に格納されているプログラムを読み出して実行することにより実現される。また配信サーバ10は、上記の機能に加えて、オペレーティングシステム、ファイルシステム、デバイスドライバ、DBMS(DataBase Management System)等の機能を備える。
【0023】
上記の機能のうち、記憶領域110は、配信サーバ10の主記憶装置102または補助記憶装置103に形成される。記憶領域110は、作業状況を撮影して得られる作業動画151、工程情報152、及び、作業動画153、154の各データを記憶する。記憶領域110は、これらのデータを、例えばデータベースのテーブルや、ファイルシステムによって管理されるファイル等として記憶する。
【0024】
工程情報152は、作業動画151の撮影時刻(または動画の再生時間)、工程にかかる時間、及び工程名称の組合せを複数個保持する(
図5)。工程情報152、及び作業動画153、154の生成方法などの詳細については後述する。
【0025】
管理部120は、人間の声を認識して文字データに変換する機能、及び、工程を作成する機能などを備える。
【0026】
〔機械学習サーバの機能構成〕
図3(b)は機械学習サーバ20が備える主な機能(ソフトウェア構成)を示している。同図に示すように、機械学習サーバ20は、記憶領域210及び管理部220を備える。これらの機能は、機械学習サーバ20のプロセッサ101が、機械学習サーバ20の主記憶装置102に格納されているプログラムを読み出して実行することにより実現される。また機械学習サーバ20は、上記の機能に加えて、オペレーティングシステム、ファイルシステム、デバイスドライバ、DBMS(DataBase Management System)等の機能を備える。
【0027】
記憶領域210は、機械学習サーバ20の主記憶装置102または補助記憶装置103に形成される。記憶領域210には、
図3(b)に示すように、学習器221(後述)の機械学習に用いられる学習用データ251が保存される。学習用データ251は、フレーム、工程名称ラベルの組合せを複数個有する(
図6)。学習用データ251の生成方法などの詳細については後述する。
【0028】
管理部220は、後述する様々な機能を備えているが、少なくとも学習器221を備える。学習器221は入力された画像の画像特徴量を学習し、入力された画像に対し、画像内の要素の推定結果を示す情報を出力する機能を有する。このような機能を備える学習器221としては、様々な種類、構造のモデルが採用し得るが、本実施形態での学習器221は、
図4に示すように、畳み込みニューラルネットワークなどのニューラルネットワークを構築し、深層学習を行う。
【0029】
学習器221は、画像の入力を受け付ける入力層と、注目要素の推定結果を出力する出力層と、入力された画像の特徴量を抽出する中間層とを有する。入力層、出力層、及び中間層の各層は、ノード(図中、白丸で示す)を備えており、これらの各層のノードは、エッジ(図中、矢印で示す)によって接続されている。なお、
図4に示す学習器221の構成は例示であり、ノード及びエッジの数、中間層の数などは適宜変更可能である。
【0030】
〔工程表作成処理〕
上記構成の情報処理システム1が実行する処理について、主に
図7のシークエンス図を用いて以下に説明する。以下では一例として、複数の工程によって構成される物品組立作業について、工程表の作成を行う処理について説明を行う。
【0031】
情報処理システム1で行われる処理は、配信サーバ10、機械学習サーバ20、ユーザ端末30及び撮影装置40の各装置において主記憶装置102または補助記憶装置103に格納されているプログラムを読み出して実行することにより実現される。以下の処理では、プログラムによって生成した管理部120、220などの処理を、配信サーバ10、機械学習サーバ20が実行するものとして説明する場合がある。
【0032】
ステップS1において、組立作業の撮影が行われる。少なくとも1つの工程に関する作業に対して撮影がなされるが、作業全体を撮影することが好ましい。撮影で得られた動画データは撮影装置40から送信され、配信サーバ10の記憶領域110に作業動画151として保存される(S2)。
【0033】
ステップS3において、ユーザ端末30による動画再生と、説明者による作業説明が行われる。具体的には、ユーザ端末30を介して作業動画151が再生され、組立作業を熟知している説明者がその動画を観ながら、動画に映し出される各工程を説明する。説明する内容は、工程の名称であってもよいし、作業詳細でもよいが、以下ではこの処理における説明者の発言を、一律に「工程(の)名称」として扱う。
【0034】
配信サーバ10は、ユーザ端末30を介して説明者の音声を取得する(S4)。取得の際には、音声を記憶領域110に保存してもよいし、保存せずに次の処理(ステップS5)を同時に行ってもよい。
【0035】
配信サーバ10は、次に工程情報152を作成する(S5)。工程情報152の作成は、
図5に示すように、各工程にかかる時間と、各工程名称とを関連付けることによって、作成される。
【0036】
具体的には、
図8に示すように、説明者の音声が配信サーバ10(管理部120)によって解析され、説明者の音声が文字に変換される。これに並行し、説明者の音声の継続時間を計測することによって工程にかかる時間が計測される。例えば、「ネジ締め」という音声の発生した時間が2秒であれば、配信サーバ10は、ネジ締め工程の時間を2秒とする。この処理の結果得られた「ネジ締め」という文字と、工程にかかる時間とを関連付けした工程情報152を作成する(
図5)。
【0037】
別の方法として、音声の間隔が工程にかかる時間として計測されてもよい。例えば、「ネジ締め」という音声と「製品移動」という音声が順次取得された場合、「ネジ締め」という音声が発生した時刻から「製品移動」という音声の発生した時刻までの間隔を、配信サーバ10は、ネジ締め工程の時間とする。
【0038】
なお、
図8などに示す「無音」とは、必ずしも音が無いことを指すのではない。例えば人声の周波数帯における音量が閾値以下となる場合に無音とみなす処理や、音声解析で文字に変換できない音声波形が得られる場合に無音とみなす処理が実行され得る。
【0039】
配信サーバ10は、作成された工程情報152に基づいて
図9に示すような工程表を作成することができる(S7)。工程情報152には、
図5のように、動画の撮影時刻(または動画の再生時間、以下同様)と、各工程の名称と、各工程にかかる時間とが関連付けられて保存されている。配信サーバ10は、これらの関連付けを用いて工程表を作成する。
【0040】
なお、工程表の形式は様々である。例えば、
図9に示すようなフローチャート形式であってもよいし、その他ガントチャートや線図、
図5のような表形式など、様々な形式がユーザの希望に応じて採用される。
【0041】
〔学習〕
上述の処理で作成された作業動画151と工程情報152は、以下に説明するように、学習器221の学習に用いられる。学習器221の学習は、
図10のフローチャートにしたがって行われる。
【0042】
ステップS11において、機械学習サーバ20の管理部220は、配信サーバ10から作業動画151を取得し、作業動画151に対するラベル付けを実行する。この処理において、作業動画151を構成する静止画像である各フレームに対して工程の名称がラベル付けされ、フレームに表示される作業がどの工程に該当するのか示される(
図6)。なお、この処理は機械学習サーバ20でなく、配信サーバ10によって実行されてもよい。
【0043】
ラベル付けの際、管理部220は工程情報152から各工程の名称と各工程に係る時間とを読出す。さらに管理部220は、作業動画151の撮影時刻に応じて工程の名称をラベル付けする。
【0044】
次のステップS13において、管理部220は、作業動画151に対してエッジ処理を含む画像処理を行う。エッジ処理を行うことによって、作業者の輪郭が明確に表示されることとなり、学習処理が容易となる。ステップS13までの処理の結果、エッジ処理が施された作業動画151は、各フレームが工程名称及び撮影時刻に関連付けされた状態とされ、学習用データ251として記憶領域210に保存される(
図6)。この際、学習用データ251には、ユーザによって修正が施されてもよい。
【0045】
なお、エッジ処理では、フレーム中で輝度変化が大きい画素を抽出し、その他の部分の画素と区別した二値化画像を作成する手法が一般的に採用される(
図11)。また画像処理(S13)においては、エッジ処理だけでなく、ノイズ除去や輪郭を明確にすることを目的として膨張処理や収縮処理などの処理が併用されてもよい。
【0046】
次のステップS15において、管理部220は、学習器221に対して学習用データ251を用いて学習させる。学習器221は、作業者、工具、または製品等が表示される各フレームの特徴量、各フレームの変化に関する特徴量を取得し、工程の名称と合わせて学習する。
【0047】
この学習処理を実行することにより、学習器221は動画に表示される作業がどの工程に該当するのかを推定する、学習済みモデルとして機能する。
【0048】
なお、1つ作業動画151だけでなく、複数の作業動画に基づいて複数回学習処理が実行されてもよい。異なる作業内容に関する動画を用いることによって、様々な作業に対応する学習済みモデルを作成できる場合がある。または、推定処理(後述)の精度を向上させることができる。
【0049】
〔推定〕
学習済みの学習器221を用いると、説明者による説明を用いずに動画から工程を推定する推定処理を実行することができる。推定処理の詳細を
図12のフローチャートを用いて以下に説明する。
【0050】
ステップS21において、学習器221は、作業動画151とは異なる新たな作業動画153を、撮影装置40より取得する。作業動画153には、作業者が、複数の工程にまたがる作業を行っている様子が撮られている。作業動画153の取得に際し、学習器221は、S13の処理と同様、
図11のように作業動画153に対してエッジ処理を含む画像処理を施し、作業者や物体の輪郭を明瞭にした作業動画154を生成する(S22)。
【0051】
次に学習器221は、作業動画154を構成する複数のフレームを読み込み、作業動画154に示される作業の工程名称と各工程にかかる時間を推定する(S23)。具体的に述べると学習器221は、作業者、工具、または製品等が表示される各フレームの画像の特徴量、または、各フレームの変化に関する特徴量を取得し、取得した特徴量からフレームに表示される作業の工程名称を推定する。
【0052】
同時に、学習器221は、フレームの撮影時刻から、各工程にかかる時間を把握することができる。または、同じ工程名称が付されたフレームの数とフレームレートに基づき、工程にかかる時間が計算できる。このようにして、各工程名称と、工程にかかる時間とが推定される。
【0053】
学習器221は、各フレームで推定された工程名称を用いて工程表を作成する(S25)。ステップS23で推定した各工程名称と各工程にかかる時間とに基づいて工程表が作成される。工程表の形式は、ステップS5の処理(
図9)と同様、ユーザの要望、設定等に応じて適当なものが用意される。また、工程情報152と同様の形式の表が作成されてもよい。
【0054】
<変形例>
実施形態では、通信ネットワーク5で各装置が通信可能に接続されているが、装置間は必ずしも通信手段でつながれてなくてもよい。例えば、撮影装置40が通信ネットワーク5から独立しており、メモリなどの記憶媒体を介して作業動画151などのデータを各装置に移動させる構成としてよい。他の装置についても同様である。
【0055】
また、実施形態に示した各装置の処理や機能を、別の装置が実行してもよい。例えば、ラベル付け及びエッジ処理を含む画像処理(S11、S13、S22)の一部または全部を配信サーバ10や、撮影装置40、ユーザ端末30が実行してもよい。同様に、学習(S15)及び工程推定(S23)の一部または全部を配信サーバ10や、撮影装置40、ユーザ端末30が実行してもよい。他の処理または機能に関しても、同様である。
【0056】
<効果>
上記実施形態において情報処理システム1は、複数の工程で構成される作業を記録した作業動画151(第1動画に相当)を再生する処理(S3)と、作業動画151に表示される作業を説明者に口頭で説明させ、説明者の音声を取得する処理(S4)と、配信サーバ10に説明者の音声を解析させ、複数の工程それぞれにかかる時間を計測し、
図5に示されるような工程時間セットを有する工程情報152を取得する計測処理(S5)と、を実行する。
【0057】
上記構成では、説明者が工程の名称を口頭で述べるだけで工程表が作成される。説明者が工程の名称をキーボード入力したり、各工程にかかる時間をストップウォッチで計測し、メモを取ったりする手間が無い。従来では、そのような手間や労力のため、工程把握をするためには多くの時間と人手を必要としていた。また、時間計測を計測する際の誤差や作業内容の記入ミスなどに起因する品質不良が発生する虞もあった。一方、上記構成では、労力を必要とせず、迅速にまたは正確に工程を把握することができる。
【0058】
計測処理(S5)において、配信サーバ10は、説明者の音声の継続時間に基づいて複数の工程それぞれにかかる時間を計測する。
【0059】
このような方法を採ることにより、各工程を遂行するために必要な時間を容易にまたは正確に計測することができる。
【0060】
配信サーバ10は、説明者の音声を解析し、複数の工程それぞれの名称を示す名称セットをテキスト、すなわち文字として保持する工程情報152を取得する(S5)。
【0061】
上記構成では、説明者の音声を認識し、テキストデータを自動的に作成するため、説明者が工程の名称をキーボード入力するなどの手間が不要である。迅速にデータを作成することができる。
【0062】
配信サーバ10は、工程情報152から各工程の名称と工程時間とを関連付けして示す工程表を作成する(S7)。
【0063】
情報処理システム1は、作業動画151、工程情報152を用いて学習用データ251を作成する処理(S11、S13)を実行する。また、機械学習サーバ20では、学習用データ251を用いて学習器221を学習させ、学習済みモデルを作成する処理(S15)が実行される。
【0064】
上記構成により、作業動画151を機械学習のデータとして使用し、工程を推定し、または工程表を作成する学習モデルを作成することが可能となる。
【0065】
学習済みの学習器221は、複数の工程で構成される作業を記録した作業動画153を読み込む処理(S21)と、作業を構成する複数の工程それぞれの名称を示す名称セット、及び、作業の各工程にかかる時間を示す工程時間セットを推定する推定処理(S23)とを実行する。
【0066】
このような処理を実行することにより、説明者が口頭で説明を行わなくとも工程名称と時間とを取得することができる。作業の撮影以外に人間の手を介さず、工程に関するデータを取得することができる。
【0067】
学習器221は、工程の各名称と、工程時間とを関連付けして示す工程表を作成する(S25)。
【0068】
上記構成では、人間の手を介さずに簡易に工程表を作成することが可能となり、各工程にかかる時間や作業内容を適切な形式で表現できる。
【0069】
推定処理においては、作業動画153がエッジ処理される(S21)。また、学習器221は、画像の特徴量を取得し、工程名称及び工程時間の少なくとも1つを推定する(S23)。
【0070】
上記構成のようにエッジ処理を行うことによって、作業者の輪郭または輪郭の変化を学習器221が把握し、正確に特徴量を取得することができる。そのため各工程の作業内容、または各工程にかかる時間の推定が容易となる。
【符号の説明】
【0071】
情報処理システム1
サーバ10
機械学習サーバ20
ユーザ端末30
撮影装置40