IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

<>
  • 特許-状態判定装置、方法およびプログラム 図1
  • 特許-状態判定装置、方法およびプログラム 図2
  • 特許-状態判定装置、方法およびプログラム 図3
  • 特許-状態判定装置、方法およびプログラム 図4
  • 特許-状態判定装置、方法およびプログラム 図5
  • 特許-状態判定装置、方法およびプログラム 図6
  • 特許-状態判定装置、方法およびプログラム 図7
  • 特許-状態判定装置、方法およびプログラム 図8
  • 特許-状態判定装置、方法およびプログラム 図9
  • 特許-状態判定装置、方法およびプログラム 図10
  • 特許-状態判定装置、方法およびプログラム 図11
  • 特許-状態判定装置、方法およびプログラム 図12
  • 特許-状態判定装置、方法およびプログラム 図13
  • 特許-状態判定装置、方法およびプログラム 図14
  • 特許-状態判定装置、方法およびプログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-01
(45)【発行日】2024-05-13
(54)【発明の名称】状態判定装置、方法およびプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240502BHJP
   G06N 3/04 20230101ALI20240502BHJP
   H04N 7/18 20060101ALI20240502BHJP
【FI】
G06T7/00 350B
G06N3/04
H04N7/18 K
【請求項の数】 12
(21)【出願番号】P 2020180756
(22)【出願日】2020-10-28
(65)【公開番号】P2022071675
(43)【公開日】2022-05-16
【審査請求日】2023-02-17
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】ファン ヴェト クォク
(72)【発明者】
【氏名】中洲 俊信
(72)【発明者】
【氏名】三島 直
(72)【発明者】
【氏名】仲山 将順
【審査官】伊知地 和之
(56)【参考文献】
【文献】特開2013-097466(JP,A)
【文献】国際公開第2020/100532(WO,A1)
【文献】特開2009-085900(JP,A)
【文献】特開2012-150613(JP,A)
【文献】特開2006-350604(JP,A)
【文献】特開2020-064418(JP,A)
【文献】特開2017-162103(JP,A)
【文献】米国特許出願公開第2020/0193228(US,A1)
【文献】特開2017-091525(JP,A)
【文献】嵐一樹 外1名,意味構造に着目したシーングラフ生成手法の提案,第12回データ工学と情報マネジメントに関するフォーラム (第18回日本データベース学会年次大会) [online] ,日本,2020年03月04日
【文献】Linjie Yang et al.,“Dense Captioning with Joint Inference and Visual Context”,2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),米国,IEEE,2017年,pp.1978-1987
(58)【調査した分野】(Int.Cl.,DB名)
G06F 18/00 - 18/40
G06N 3/00 - 3/12
G06N 3/00 - 99/00
G06Q 10/00 - 10/30
G06Q 30/00 - 30/08
G06Q 50/00 - 50/20
G06Q 50/26 - 99/00
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
G16Z 99/00
H04N 7/18
CSDB(日本国特許庁)
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置。
【請求項2】
前記回答は、正常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値未満である場合、前記判定対象の状態が異常であると判定する、請求項1に記載の状態判定装置。
【請求項3】
前記想定回答は、異常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値以上である場合、前記判定対象の状態が異常であると判定する、請求項1に記載の状態判定装置。
【請求項4】
前記判定部は、前記判定対象の状態が異常である場合、前記判定対象が危険状態であると判定する、請求項2または請求項3に記載の状態判定装置。
【請求項5】
前記異常であると判定された場合、前記質問と解決策とを対応付けたデータベースを参照し、前記解決策を提示する提示部をさらに具備する、請求項2から請求項4のいずれか1項に記載の状態判定装置。
【請求項6】
マニュアルから前記質問および前記想定回答を抽出して生成する生成部をさらに具備する、請求項1から請求項5のいずれか1項に記載の状態判定装置。
【請求項7】
マニュアルにおいて正常である場合を想定した1つの判定項目に対して、複数の質問および前記複数の質問にそれぞれ対応する想定回答を生成する生成部をさらに具備し、
前記判定部は、前記複数の質問それぞれに対して前記学習済みモデルを用いて得られた推定回答と前記想定回答との類似度が第1閾値以上となる数が第2閾値未満である場合、前記判定項目に対する状態が異常であると判定する、請求項1に記載の状態判定装置。
【請求項8】
前記学習済みモデルは、VQA(Visual Question Answering)に関するモデルである、請求項1から請求項7のいずれか1項に記載の状態判定装置。
【請求項9】
前記判定部は、前記類似度が閾値未満である状態が所定期間以上または所定回数以上である場合、異常な状態であると判定する、請求項1に記載の状態判定装置。
【請求項10】
対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
像解析装置を用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置であって、
前記画像解析装置は、
画像を取得する画像取得部と、
質問を取得するテキスト取得部と、
前記画像から、物体に関する第1画像特徴量と、非物体を含む第2画像特徴量とを融合した画像特徴量を算出する第1算出部と、
前記質問からテキスト特徴量を算出する第2算出部と、
前記画像特徴量および前記テキスト特徴量に基づき、回答を推定する推定部と、
を具備する、状態判定装置
【請求項11】
画像取得手段が、対象画像を取得し、
質問回答取得手段が、前記対象画像に関する質問と前記質問に対する想定回答とを取得し、
推論手段が、画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成し、
判定手段が、前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する、状態判定方法。
【請求項12】
コンピュータを、
対象画像を取得する画像取得手段と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得手段と、
画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する推論手段と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定手段として機能させるための状態判定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、状態判定装置および画像解析装置に関する。
【背景技術】
【0002】
製造現場、保守現場に設置されたカメラで撮影した現場画像に基づき、例えば安全マニュアルに違反した装備状態または危険な状態を検知したいというニーズがある。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2017-91525号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、上述の課題を解決するためになされたものであり、推定精度を向上させることを目的とする。
【課題を解決するための手段】
【0005】
本実施形態に係る状態判定装置は、画像取得部と、質問回答取得部と、推論部と、判定部とを含む。画像取得部は、対象画像を取得する。質問回答取得部は、前記対象画像に関する質問と前記質問に対する想定回答とを取得する。推論部は、画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する。判定部は、前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する。
【図面の簡単な説明】
【0006】
図1】第1の実施形態に係る状態判定装置を示すブロック図。
図2】第1の実施形態に係る状態判定装置の状態判定処理を示すフローチャート。
図3】質問および想定回答の一例を示すテーブル。
図4】状態判定装置の状態判定処理の適用例を示す概念図。
図5】危険状態の検出結果の提示例を示す図。
図6】第2の実施形態に係る状態判定装置を示すブロック図。
図7】第2の実施形態に係る状態判定装置の状態判定処理を示すフローチャート。
図8】第3の実施形態に係る画像解析装置を示すブロック図。
図9】第3の実施形態に係る画像解析装置の動作を示すフローチャート。
図10】画像特徴量算出処理の第1例を示すフローチャート。
図11】第1画像特徴量の算出例を示す概念図。
図12】第2画像特徴量の算出例を示す概念図。
図13】画像特徴量算出処理の第2例を示すフローチャート。
図14】画像特徴量算出処理の第3例を示すフローチャート。
図15】状態判定装置または画像解析装置のハードウェア構成の一例を示す図。
【発明を実施するための形態】
【0007】
以下、図面を参照しながら本実施形態に係る状態判定装置および画像解析装置について詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜省略する。
【0008】
(第1の実施形態)
第1の実施形態に係る状態判定装置について図1のブロック図を参照して説明する。
第1の実施形態に係る状態判定装置1は、画像取得部11と、質問回答取得部12と、推論部13と、判定部14と、提示部15とを含む。
【0009】
画像取得部11は、対象画像を取得する。
質問回答取得部12は、対象画像に関する質問と前記質問に対する想定回答とを取得する。
推論部13は、画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、対象画像に関する質問について推定される推定回答を生成する。第1の実施形態で想定する学習済みモデルは、入力画像と入力画像に対する質問が提示された場合に入力画像から回答を導き出す、いわゆるVQA(Visual Question Answering)に関するモデルであり、例えば学習済みモデル格納部16に格納される。学習済みモデル格納部16は、図1に示すように、クラウドサーバなどの外部に存在してもよいし、状態判定装置1内に存在してもよい。推論部13が外部の学習済みモデル格納部16を参照する場合は、学習済みモデル格納部16に対して質問を送信し、推定回答を受信すればよい。
判定部14は、想定回答と推定回答との類似度に応じて、判定対象の状態を判定する。例えば、判定対象が異常な状態であるか否かを判定する。本実施形態における異常な状態とは、例えば、危険な状態、劣悪な状態など、想定回答で想定する状態とは異なる状態を示す。
提示部15は、判定部14により例えば判定対象の状態が異常であると判定された場合、異常である旨を通知する。また、提示部15は、データベースを参照し、解決策または改善策を提示する。
【0010】
次に、第1の実施形態に係る状態判定装置1の状態判定処理について図2のフローチャートを参照して説明する。
ステップS201では、画像取得部11が、対象画像を取得する。対象画像は、第1の実施形態では、監視カメラなどにより、判定対象となる作業者を撮影した撮影画像を想定するが、これに限らず、判定対象の状態を判定するために利用可能な画像であればよい。また、画像に限らず、動画であってもよい。動画である場合は、フレームごとに状態判定装置1による状態判定処理が実行されてもよいし、複数のフレームの中から選択された代表フレームについて状態判定処理が実行されてもよい。
【0011】
ステップS202では、質問回答取得部12が、対象画像に関する質問と当該質問に対する想定回答とを取得する。第1の実施形態では、安全マニュアル通りに準備、作業をしているか否かを判定することを想定するため、安全マニュアルから質問と想定回答とが予め作成されているものとする。つまり、想定回答は、正常な状態を想定した回答となる。
ステップS203では、推論部13が、VQAに関する学習済みモデルを用いて、対象画像について質問に対する推定回答を生成する。
【0012】
ステップS204では、判定部14が、想定回答と推定回答とを比較し、類似度が閾値以上であるか否かを判定する。類似度が閾値以上であればステップS205に進み、類似度が閾値未満であればステップS206に進む。
なお、判定部14における類似度の判定は、推定回答および想定回答の出力形式によって異なる。例えば、推定回答および想定回答の出力形式が数値であれば、双方の回答の値の差分がゼロまたは閾値以下であれば、推定回答と想定回答とが類似すると判定する。また、推定回答および想定回答の出力形式が名詞や文章などの文字列であれば、表記揺れや言い回しなどの違いの差を吸収できるよう、例えば推定回答44と想定回答45とのコサイン類似度を計算する。コサイン類似度が閾値以上であれば、推定回答と想定回答とが類似すると判定すればよい。これにより、意味的な類似度を判定できる。
【0013】
ステップS205では、判定部14が、推定回答が想定回答通りであるといえるため、判定対象となる作業者が安全マニュアル通りの状態にある、言い換えれば異常がないと判定する。
ステップS206では、判定部14が、推定回答が想定回答通りではないといえるため、作業者が安全マニュアル通りの状態ではない、言い換えれば異常があると判定する。
【0014】
なお、図2の例では、想定回答は、正常な状態を想定した回答であるが、質問および回答の作成の仕方により、判定部14における判定結果(ステップS708とステップS709)が入れ替わる。例えば、質問回答取得部12が、異常な状態を想定した回答と質問との組を取得した場合、ステップS204で想定回答と推定回答との類似度が閾値以上であると判定されれば、判定部14は、推定回答が想定回答通り、つまり異常な状態であると判定できる。
【0015】
次に、質問回答取得部12が取得する質問および想定回答の一例について図3を参照して説明する。
図3は、質問と対応する想定回答とを対応付けて格納するテーブルの一例である。ここでは、安全マニュアルによる作業者が順守すべき安全な状態(異常がない状態)となるための準備リストを示す。具体的には、質問「帽子を装着しているか?」と、対応する想定回答「はい」とが対応付けられて格納される。
質問回答取得部12は、図3に示すテーブルから質問と想定回答との組を逐次抽出し、推論部13および判定部14による処理が実行される。なお、質問および想定回答の格納形式はテーブル形式に限らず、質問と対応する想定回答とが組で取得できればどのような格納形式でもよい。
【0016】
次に、状態判定装置1の状態判定処理の適用例について図3図4とを参照して説明する。図4は、推論部13および判定部14の処理の概念図である。
推論部13は、対象画像41と、質問42とをVQAのための学習済みモデル43に入力し、学習済みモデル43から推論結果として推定回答44が出力される。図4の例では、作業者が作業をしている画像を対象画像41として入力し、図3に示す質問42「帽子を装着しているか?」と学習済みモデル43に入力される。学習済みモデル43では、対象画像41から画像特徴量と、質問42からテキスト特徴量とを抽出し、画像特徴量とテキスト特徴量とに基づいて、質問に対する回答が推論される。ここでは、学習済みモデル43より推定回答44「いいえ」が出力されたとする。
【0017】
図3のテーブルにおける質問42「帽子を装着しているか?」に対する想定回答45は「はい」であるため、判定部14は、推定回答44と想定回答45とを比較する。判定部14は、ここでは、意味的な類似度を比較する。つまり、推定回答44「いいえ」と想定回答45「はい」とは正反対の答えであるため、判定部14は、推定回答44と想定回答45との類似度が閾値未満であると判定する。よって、推定回答44と想定回答45とが異なるため、異常な状態、ここでは危険状態である旨の判定結果46が生成される。
【0018】
次に、提示部15による危険状態の検出結果の提示例について図5を参照して説明する。
図5は、例えばディスプレイに表示されるユーザインタフェース画面である。提示部15は、図3に示す質問と想定回答との項目のテーブルに、推定回答を追加してユーザインタフェース画面に表示する。
【0019】
ここでは、Q2「グローブを装着しているか?」という質問に対して、想定回答が「はい」であるが、推論部13による推定回答が「いいえ」であるため、危険状態を示すマーク51を表示する。なお、マーク51に限らず、推定回答の文字列について、色、文字サイズ、ハイライト、点滅させるといった強調表示をしてもよい。また、音声やアラーム音などで危険状態を通知してもよい。これにより、ユーザは、画面を確認することでどの項目が危険な状態の項目なのかを一見して把握できる。
また、危険状態と判定された項目に対して、過去の解決策または改善策の事例を図5の「解決策または改善策」の項目に表示してもよい。ここでは、Q2「グローブを装着しているか?」という質問の項目について条件を満たしていないため、「後ろの棚にある予備のグローブを着用してください」といった、解決策を提示できる。
【0020】
以上に示した第1の実施形態によれば、画像に対する任意の質問に回答可能なVQAに関する学習済みモデルを用いて、判定対象の状態を判定する。これにより、例えば、作業者の異常な状態、危険な状態を検知することができる。また、画像と質問という汎用的なフォーマットのため、様々な状況で適用可能であり、状態の推定精度を向上させることができる。さらに、VQAに関する学習済みモデルを用いることで、任意の質問に対しても推論できるため、例えば安全マニュアルの変更があった場合でも、学習済みモデル全体を変更することなく、質問と推定回答との組のみ変更すればよいため、状態判定装置または点検項目のメンテナンスを省力化できる。
【0021】
(第2の実施形態)
第2の実施形態では、質問と想定回答とを自動生成する点が第1の実施形態と異なる。
第2の実施形態に係る状態判定装置について図6のブロック図を参照して説明する。
第2の実施形態に係る状態判定装置2は、画像取得部11と、質問回答取得部12と、推論部13と、判定部14と、提示部15と、質問回答生成部61とを含む。
【0022】
質問回答生成部61は、外部からマニュアルを受け取り、マニュアルから質問と対応する想定回答とを生成する。マニュアルは、安全マニュアル、点検リスト、取扱説明書などの作業マニュアルでもよいし、作業報告書、トラブル報告書、または過去のトラブルの状況、原因、対策を関連づけた知識グラフ、オントロジーでもよい。例えば、トラブル報告書に基づき質問および想定回答を生成することで、過去にトラブルが発生したときの条件になっているか否かを判定できる。
【0023】
マニュアルから質問と想定回答とを生成する手法としては、例えば、マニュアルにある「~することはできません」という否定文を「~することができますか?」という疑問文にすることで質問文を生成し、マニュアルの文言を想定回答とするようなルールベースによる手法を用いればよい。また、「<条件>の場合、<名詞>が<動詞>」といったテンプレートを用意し、マニュアルの文言から品詞、条件文を抽出してテンプレートに当てはめることで、質問文を生成し、マニュアルの文言を想定回答とするようなテンプレートに基づく手法でもよい。すなわち、マニュアルから質問と想定回答とを抽出、生成できる手法であればどのような手法を用いてもよい。
状態判定装置2は、生成した質問および想定回答を用いて取得した画像に対して推論することにより、状態を判定することができる。
【0024】
なお、質問回答生成部61は、マニュアルにおける1つの判定項目から、複数の質問および対応する想定回答を生成してもよい。この場合の複数の質問とは、1つの判定項目に対して問い方を変えたバリエーションの質問である。このように1つの判定項目に対して複数の質問を生成することで、確信度およびロバスト性を高めることができる。
【0025】
1つの判定項目から複数の質問を作成した場合の状態判定装置2の状態判定処理について、図7のフローチャートを参照して説明する。なお、ステップS201は、図2と同様の処理である。
ステップS701では、質問回答生成部61が、上述した生成手法などにより、1つの判定項目からk個(kは2以上の正数)の質問と対応する想定回答とを生成する。
【0026】
ステップS702では、推論部13が、学習済みモデルを用いて、i番目(iは1以上の正数)の質問に対する推定回答を生成する。
ステップS703では、判定部14が、想定回答と推定回答との類似度が閾値以上であるか否かを判定する。類似度が閾値以上である場合、ステップS704に進み、類似度が閾値未満である場合、ステップS705に進む。
【0027】
ステップS704では、判定部14が、カウンタを1つインクリメントする。
ステップS705では、判定部14が、ステップS701で生成したk個の質問を全て処理したか否かを判定する。k個の質問を全て処理した場合、ステップS707に進み、未処理の質問がある場合、ステップS706に進む。
【0028】
ステップS706では、次の質問を処理すべくiが1つインクリメントされ、ステップS702に戻り、同様の処理を繰り返す。
ステップS707では、判定部14が、カウンタの値が閾値以上であるか否かを判定する。カウンタの値が閾値以上である場合、ステップS708に進み、カウンタの値が閾値未満である場合、ステップS709に進む。
【0029】
ステップS708では、判定部14が、複数の質問について一定数、想定回答通りの推定回答が得られているので、異常がないと判定する。
ステップS709では、判定部14が、想定回答通りの推定回答が得られていないため、異常があると判定する。
【0030】
なお、ステップS707において、閾値を質問の数と同数、つまり閾値をkと設定することにより、1つでも想定回答と異なる推定回答が得られた場合、判定部14は、異常があると判定することもできる。これにより、判定の条件を厳しくすることができる。
【0031】
以上に示した第2の実施形態によれば、例えば、通路に物が置かれているか否かの点検項目を判定する場合に、「通路に物がないか?」「通路に何があるか?」「通路に物が何個置かれているか?」といったように、1つの点検項目について問い方を変えて質問を生成する。それぞれに質問に対し、例えば「はい」「何もありません」「0個」といった想定回答を生成した場合、想定回答とは異なる推定回答が得られた場合に危険状態と判定するなど、より厳しい条件で状態を判定できる。
【0032】
また、学習済みモデルの推論精度が低い場合、一定数以上の質問に対する推定回答が想定回答と異なる場合に危険と判定することで、推定回答の誤りに対してロバスト性を高めることができる。
なお、質問回答生成部61によらず、予め1つの判定項目に対して複数の質問および対応する想定回答を用意することにより、第1の実施形態に係る状態判定装置1でも同様の判定結果を得ることができる。
【0033】
また、上述の実施形態では、1つの場面(1つの画像)に対して異常であるか否かを判定しているが、推定回答と想定回答とが異なる状況が、所定期間以上または所定回数以上存在する場合に、異常であると判定してもよい。具体的には、例えば作業者の作業を監視カメラでモニタリングしており、複数人での作業が必要な業務について、作業者が1人で作業していた場合を想定する。質問「複数人で作業していますか?」と想定回答「はい」とが状態判定装置に入力され、推定回答「いいえ」が出力されたとする。この場合、最初に推定回答「いいえ」が出力されたときの時刻情報を例えば判定部14が保持し、その後、状態判定装置が判定処理を継続し、最初の時刻情報から所定期間経過しても、推定回答「いいえ」が出力される場合、異常であると判定してもよい。これにより、作業者が危険な状態であるとも判定できる。
【0034】
上述の実施形態では、異常状態の判定、特に危険検知を想定した例を示すが、これに限らず、状態判定装置により作業スキル検知を実施できる。例えば、熟練者の作業のコツに関する質問および想定回答を生成し、作業中の作業者の画像に基づき、推論部13が推定回答を生成する。想定回答と推定回答との類似度が閾値未満であれば、判定部14は、熟練者の作業とは異なる、つまり、低スキル作業であると判定できる。
低スキル作業であると判定された場合、提示部15がその旨を作業者に提示すべく、ユーザインタフェース画面または音により通知してもよいし、どの項目で低スキルと判定されたかを提示してもよい。さらには、提示部15が、改善策として熟練者の作業のコツに関する説明文または作業の動画を作業者に提示してもよい。このような質問および推定回答、改善策などを用意し、状態判定装置により状態判定を実施することで、低スキルを検知でき、熟練者の技能伝承を実施できる。
【0035】
同様に、状態判定装置は高負荷作業検知も実施できる。例えば、作業者にかかる負荷が標準以下となる作業であるか否かを点検項目、一例として作業姿勢を評価するOWAS(Ovako Working posture Analysing System)法などから質問および想定回答を生成し、作業中の作業者の画像に基づき、推論部13が推定回答を生成する。想定回答と推定回答との類似度が閾値未満であれば、判定部14は、標準の負荷とは異なる、つまり、高負荷作業であると判定できる。
高負荷作業であると判定された場合、提示部15がその旨を作業者に提示すべく、ユーザインタフェース画面または音により通知してもよいし、どの項目で高負荷作業と判定されたかを提示してもよい。また、高負荷であると判定された累積時間を計算し、累積的な負荷具合を算出してもよい。これにより、高負荷作業が検知でき、検知された結果をふまえて作業現場における作業の負荷分散を検討できる。
【0036】
また、状態判定装置は低効率作業の検知も実施できる。例えば、効率のよい作業であるか否かに関する質問および想定回答を生成し、作業中の作業者の画像に基づき、推論部13が推定回答を生成する。想定回答と推定回答との類似度が閾値未満であれば、判定部14は、効率のよい作業とは異なる、つまり、低効率作業であると判定できる。
低効率作業であると判定された場合、提示部15がその旨を作業者に提示すべく、ユーザインタフェース画面または音により通知してもよいし、どの項目で低効率と判定されたかを提示してもよい。また、低効率であると判定された累積時間を算出することで、累積的な低効率作業時間を算出してもよい。これにより、低効率作業を検知でき、作業現場の生産性向上につながる。
【0037】
(第3の実施形態)
第1の実施形態および第2の実施形態の学習済みモデルとしても想定している一般的なVQAでは、画像の特徴量として物体のROI(Region of Interest)の情報を利用している。よって、人物や標識などの物体に関する質問に対しては推定回答が得られるが、道路、空といった非物体の関する質問に対しては正しい回答を生成することは困難である。第3の実施形態では、非物体に関する特徴量を検出する構成を含む画像解析装置について説明する。
【0038】
第3の実施形態に係る画像解析装置について図8のブロック図を参照して説明する。
第3の実施形態に画像解析装置8は、画像取得部81と、テキスト取得部82と、画像特徴算出部83と、テキスト特徴算出部84と、推定部85とを含む。
【0039】
画像取得部81は、VQAの処理対象となる対象画像を取得する。
テキスト取得部82は、画像取得部81が取得した対象画像に対する質問を取得する。
画像特徴算出部83は、画像から物体に関する第1画像特徴量と、画像から非物体を含む第2画像特徴量とを融合した画像特徴量を算出する。
テキスト特徴算出部84は、テキスト取得部82が取得した質問からテキスト特徴量を算出する。
推定部85は、画像特徴量およびテキスト特徴量に基づいて、対象画像に対する質問の回答を推定する。
【0040】
次に、第3の実施形態に係る画像解析装置8の動作について図9のフローチャートを参照して説明する。
ステップS901では、画像取得部81が、画像を取得する。
ステップS902では、テキスト取得部82が、質問を取得する。質問は例えば「帽子を装着していますか?」「道路は混んでいますか?」といった画像に対する質問である。
【0041】
ステップS903では、画像特徴算出部83が、例えばニューラルネットワークを用いて、画像から第1画像特徴量と第2画像特徴量とを算出する。その後、画像特徴算出部83は、第1画像特徴量と第2画像特徴量とを融合して画像特徴量を算出する。画像特徴量の算出方法の詳細については図11以降を参照して後述する。
ステップS904では、テキスト特徴算出部84が、質問からテキスト特徴量を算出する。テキスト特徴量としては、例えば、Word2vecといったテキストの分散表現化(Embedding)が可能な手法を用いてテキストをベクトル化した値を用いればよい。
ステップS905では、推定部85が、例えばAttentionを利用したDNN(Deep Neural Network)などによるVQAのための学習済みモデルを用いて、画像特徴量およびテキスト特徴量を用いて、質問に対する回答を推定する。学習済みモデルは、画像解析装置8内に保持されてもよいし、図1の学習済みモデル格納部16のように、外部に格納されてもよい。
【0042】
なお、ステップS901とステップS903との処理順序、および、ステップS902とステップS904との処理順序が維持されていれば、ステップS901からステップS904まではどのような順序でもよい。例えば、対象画像の取得、画像特徴量の算出、質問の取得、テキスト特徴量の算出といった順序でもよい。
【0043】
次に、ステップS903における画像特徴算出部83の画像特徴量算出処理の第1例について図10のフローチャートを参照して説明する。
ステップS1001では、画像特徴算出部83が、ステップS901で取得した対象画像から、画像中の物体を含むROIを検出する。
ステップS1002では、画像特徴算出部83が、抽出されたROIの特徴量を、第1画像特徴量として算出する。
【0044】
ステップS1003では、画像特徴算出部83が、ステップS901で取得した画像から、セマンティックセグメンテーション処理により、画像領域を分割する。
ステップS1004では、画像特徴算出部83が、分割された画像領域ごとに、セマンティックセグメンテーションに関する特徴量を第2画像特徴量として算出する。
【0045】
ステップS1005では、画像特徴算出部83が、ステップS1002で算出した第1画像特徴量と、ステップS1004で算出した第2画像特徴量とを融合し、画像特徴量を算出する。融合方法としては、例えば第1画像特徴量および第2画像特徴量がそれぞれベクトルで表現されていれば、ベクトル同士を結合すればよい。
【0046】
次に、ステップS1001およびステップS1002における第1画像特徴量の算出例について図11を参照して説明する。
図11は、画像から第1画像特徴量が算出されるまでの流れを示す概念図である。第3の実施形態では、物体検出モデルとして、Faster R-CNNと呼ばれるニューラルネットワークを用いることを想定する。図11左図は、処理対象の画像であり、作業者が作業をしている状況を撮影した画像を想定する。なお、Faster R-CNNに限らず、一般的な物体検出モデルであればどのようなモデルを用いてもよい。
【0047】
画像が物体検出モデル1102の畳み込み層に入力される。物体検出モデル1102では、物体らしい領域を特定するように、作業者や棚など、物体を囲む矩形(バウンディングボックス)がROI1101として表現される。ROIごとに、ROI内の物体に関する特徴量が抽出される。一般的な物体認識モデルでは、当該物体認識モデルからの出力として、物体の候補と識別ベクトル(識別スコア)とが出力されるが、第3の実施形態では、出力層の1つ前の層で算出される値を第1画像特徴量(ROI特徴量)1103として設定する。例えば、処理対象のROIについて、出力層から80個の物体候補に関する識別スコアを含む識別ベクトル(つまり80次元のベクトル)が得られる場合、当該出力層の前段以前では80次元以上のベクトル、例えば2000次元以上のベクトルを処理しており、ここでは、出力層の1つ前の層で算出されるベクトル値を第1画像特徴量1103として用いる。
なお、ROIに関する第1画像特徴量1103として、物体の位置関係および物体の意味的な関係を表すシーングラフに関する情報を用いてもよい。
【0048】
次に、ステップS1003およびステップS1004における第2画像特徴量の算出例について図12を参照して説明する。
図12は、第3の実施形態で用いるセマンティックセグメンテーションモデルの一例として、FCN(Fully Convolutional Netwrks)の概念図を示す。なお、FCNに限らず、Segnet、U-netなどセマンティックセグメンテーションに用いるモデルであれば、どのようなモデルでも適用できる。
【0049】
図12左図は、処理対象の画像例であり、犬と猫とがソファ上に存在する画像である。セマンティックセグメンテーションでは、画像中の各画素に対してラベリングされる。第3の実施形態では、ステップS1003で分割される画像領域は、図12右図では、例えば犬、猫、ソファ、背景のシルエットの各領域に相当する。画像特徴算出部83は、当該画像領域に含まれる画素について、出力層1201の1つ前の層1202で算出されるベクトル値(例えば、4000次元のベクトル)を、当該画像領域に関する第2画像特徴量として算出する。
【0050】
次に、画像特徴算出部83の画像特徴量算出処理の第2例について図13のフローチャートを参照し説明する。なお、ステップS1001およびステップS1003は図10と同様の処理である。
【0051】
ステップS1301では、画像特徴算出部83が、ステップS1001で得られたROIとステップS1003で得られた画像領域とを融合し、融合ROIを生成する。融合ROIの生成は、例えば、ステップS1001で検出されたROIと、ステップS1003で得られた画像領域との総和を融合ROIとする。また、ステップS1001において、例えばROI検出処理においてROIとして認識するための閾値を下げ、通常よりも多くのROIを検出し、検出されたROIとステップS1003で得られた画像領域との重複領域が閾値以上であるROIを、融合ROIとして生成してもよい。
【0052】
ステップS1302では、画像特徴算出部83が、融合ROIごとに、画像特徴量を算出する。ステップS1302では、物体検出モデルによるステップS1002と同様の特徴量の算出が行われればよい。
【0053】
次に、画像特徴算出部83の画像特徴量算出処理の第3例について図14のフローチャートを参照し説明する。
ステップS1401では、画像特徴算出部83が、画像領域ごとのセマンティックラベルを抽出する。セマンティックラベルは、セマンティックセグメンテーションにおいて分割された画像領域に付与されるラベルであり、例えば図12の例では、犬、猫といったラベルを示す。
【0054】
ステップS1402では、画像特徴算出部83が、セマンティックラベルをエンコードする。例えば、Word2vecを用いて、セマンティックラベルをベクトル化すればよい。
ステップS1403では、画像特徴算出部83が、ステップS1005において得られる画像特徴量と、ステップS1402で得られたエンコードされたセマンティックラベルとを結合する。例えば、画像特徴量のベクトルにエンコードされたセマンティックラベルのベクトルを結合すればよい。
【0055】
以上に示した第3の実施形態によれば、画像の特徴量として非物体、背景などに関する特徴量を学習した学習済みモデルにより、VQA問題を処理する。これにより、物体のみならず、非物体、背景などの任意の質問に対しても回答を推定できるため、VQAの性能を向上させることができる。結果として、推定精度を向上させることができる。
なお、第1の実施形態および第2の実施形態に係る状態判定装置の推論部13として、第3の実施形態に係る画像解析装置を用いてもよい。これにより、「道路に物が落ちているか?」といった非物体、背景などに関する任意の質問に対しても回答を推定でき、状態の推定精度をより向上させることができる。
【0056】
次に、上述の実施形態に係る状態判定装置または画像解析装置のハードウェア構成の一例を図15に示す。
状態判定装置または画像解析装置は、CPU(Central Processing Unit)1501と、RAM(Random Access Memory)1502と、ROM(Read Only Memory)1503と、ストレージ1504と、表示装置1505と、入力装置1506と、通信装置1507とを含み、それぞれバスにより接続される。
【0057】
CPU1501は、プログラムに従って演算処理および制御処理などを実行するプロセッサである。CPU1501は、RAM1502の所定領域を作業領域として、ROM1503およびストレージ1504などに記憶されたプログラムとの協働により各種処理を実行する。
【0058】
RAM1502は、SDRAM(Synchronous Dynamic Random Access Memory)などのメモリである。RAM1502は、CPU1501の作業領域として機能する。ROM1503は、プログラムおよび各種情報を書き換え不可能に記憶するメモリである。
【0059】
ストレージ1504は、HDD等の磁気記録媒体、フラッシュメモリなどの半導体による記憶媒体、または、HDD(Hard Disc Drive)などの磁気的に記録可能な記憶媒体、または光学的に記録可能な記憶媒体などにデータを書き込みおよび読み出しをする装置である。ストレージ1504は、CPU1501からの制御に応じて、記憶媒体にデータの書き込みおよび読み出しをする。
【0060】
表示装置1505は、LCD(Liquid Crystal Display)などの表示デバイスである。表示装置1505は、CPU1501からの表示信号に基づいて、各種情報を表示する。
【0061】
入力装置1506は、マウスおよびキーボード等の入力デバイスである。入力装置1506は、ユーザから操作入力された情報を指示信号として受け付け、指示信号をCPU1501に出力する。
【0062】
通信装置1507は、CPU1501からの制御に応じて外部機器とネットワークを介して通信する。
【0063】
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した状態判定装置および画像解析装置の制御動作による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、Blu-ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の状態判定装置および画像解析装置の制御と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
【0064】
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
【0065】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以下、出願当初の特許請求の範囲に記載された発明を付記する。
[1]
対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
画像に関する質問に基づき回答を推定するように学習された学習済みモデルを用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置。
[2]
前記回答は、正常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値未満である場合、前記判定対象の状態が異常であると判定する、[1]に記載の状態判定装置。
[3]
前記想定回答は、異常である場合を想定した項目であり、
前記判定部は、前記類似度が閾値以上である場合、前記判定対象の状態が異常であると判定する、[1]に記載の状態判定装置。
[4]
前記判定部は、前記判定対象の状態が異常である場合、前記判定対象が危険状態であると判定する、[2]または[3]に記載の状態判定装置。
[5]
前記異常であると判定された場合、前記質問と解決策とを対応付けたデータベースを参照し、前記解決策を提示する提示部をさらに具備する、[2]から[4]のいずれか1項に記載の状態判定装置。
[6]
マニュアルから前記質問および前記想定回答を抽出して生成する生成部をさらに具備する、[1]から[5]のいずれか1項に記載の状態判定装置。
[7]
マニュアルにおいて正常である場合を想定した1つの判定項目に対して、複数の質問および前記複数の質問にそれぞれ対応する想定回答を生成する生成部をさらに具備し、
前記判定部は、前記複数の質問それぞれに対して前記学習済みモデルを用いて得られた推定回答と前記想定回答との類似度が第1閾値以上となる数が第2閾値未満である場合、前記判定項目に対する状態が異常であると判定する、[1]に記載の状態判定装置。
[8]
前記学習済みモデルは、VQA(Visual Question Answering)に関するモデルである、[1]から[7]のいずれか1項に記載の状態判定装置。
[9]
前記判定部は、前記類似度が閾値未満である状態が所定期間以上または所定回数以上である場合、異常な状態であると判定する、[1]に記載の状態判定装置。
[10]
画像を取得する画像取得部と、
質問を取得するテキスト取得部と、
前記画像から、物体に関する第1画像特徴量と、非物体を含む第2画像特徴量とを融合した画像特徴量を算出する第1算出部と、
前記質問からテキスト特徴量を算出する第2算出部と、
前記画像特徴量および前記テキスト特徴量に基づき、回答を推定する推定部と、
を具備する画像解析装置。
[11]
前記第1算出部は、
前記画像においてROI(Region of Interest)を検出し、
前記検出されたROIに関する前記第1画像特徴量を算出し、
前記画像に対してセマンティックセグメンテーション処理を実行することにより、画像領域を分割し、
前記分割された画像領域に対して前記第2画像特徴量を算出する、[10]に記載の画像解析装置。
[12]
前記第1算出部は、
前記画像においてROI(Region of Interest)を検出し、
前記画像に対してセマンティックセグメンテーション処理を実行することにより、画像領域を分割し、
前記検出されたROIと前記分割された画像領域とを融合して融合ROIを生成し、
前記融合ROIに関して前記画像特徴量を算出する、[10]に記載の画像解析装置。
[13]
前記第1画像特徴量および前記第2画像特徴量は、ベクトルで表現され、
前記第1算出部は、前記第1画像特徴量のベクトルと前記第2画像特徴量のベクトルとを結合する、[10]から[12]のいずれか1項に記載の画像解析装置。
[14]
前記第1算出部は、前記検出されたROIと、前記分割された画像領域との総和を前記融合ROIとして算出する、[12]に記載の画像解析装置。
[15]
前記第1算出部は、前記検出されたROIと前記分割された画像領域とが重複する領域が閾値以上であるROIを前記融合ROIとして算出する、[12]に記載の画像解析装置。
[16]
前記第1算出部は、前記画像特徴量に、前記セマンティックセグメンテーション処理により前記分割された画像領域に付されるラベルに基づく特徴量を結合する、[11]または[12]に記載の画像解析装置。
[17]
前記第1算出部は、前記物体の位置関係および前記物体の意味的な関係を表すシーングラフに関する情報を抽出し、前記シーングラフに関する情報と前記第2画像特徴量とを融合して前記画像特徴量を算出する、[10]に記載の画像解析装置。
[18]
対象画像を取得する画像取得部と、
前記対象画像に関する質問と前記質問に対する想定回答とを取得する質問回答取得部と、
[10]から[17]のいずれか1項に記載の画像解析装置を用いて、前記対象画像に関する質問について推定される推定回答を生成する推論部と、
前記想定回答と前記推定回答との類似度に応じて、判定対象の状態を判定する判定部と、
を具備する状態判定装置。
【符号の説明】
【0066】
1,2…状態判定装置、8…画像解析装置、11…画像取得部、12…質問回答取得部、13…推論部、14…判定部、15…提示部、16…学習済みモデル格納部、41…対象画像、42…質問、43…学習済みモデル、44…推定回答、45…想定回答、46…判定結果、51…マーク、61…質問回答生成部、81…画像取得部、82…テキスト取得部、83…画像特徴算出部、84…テキスト特徴算出部、85…推定部、1101…ROI、1102…物体検出モデル、1103…第1画像特徴量(ROI特徴量)、1201…出力層、1202…層、1203…第2画像特徴量、1501…CPU、1502…RAM、1503…ROM、1504…ストレージ、1505…表示装置、1506…入力装置、1507…通信装置。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15