(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024160599
(43)【公開日】2024-11-14
(54)【発明の名称】コンピュータプログラム、タスク生成装置及びタスク生成方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20241107BHJP
G06F 40/56 20200101ALI20241107BHJP
G01N 21/88 20060101ALI20241107BHJP
【FI】
G06T7/00 610C
G06T7/00 350B
G06F40/56
G01N21/88 J
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2023075776
(22)【出願日】2023-05-01
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVASCRIPT
(71)【出願人】
【識別番号】520279384
【氏名又は名称】株式会社MENOU
(74)【代理人】
【識別番号】100114557
【弁理士】
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【弁理士】
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】西本 励照
(72)【発明者】
【氏名】足利 典亮
【テーマコード(参考)】
2G051
5L096
【Fターム(参考)】
2G051AA07
2G051AB02
2G051EB05
5L096AA06
5L096BA03
5L096CA22
5L096CA23
5L096DA01
5L096DA02
5L096FA06
5L096FA15
5L096FA52
5L096FA59
5L096FA64
5L096FA74
5L096HA09
5L096HA11
5L096JA05
5L096KA04
(57)【要約】
【課題】検査部位に応じて検査基準が異なるような検査対象に対して検査を可能にするコンピュータプログラム、タスク生成装置及びタスク生成方法を提供する。
【解決手段】コンピュータプログラムは、検査対象に関する対象画像を取得し、検査対象の画像を入力した場合、前記検査対象を検査するための複数のタスクを生成するタスク生成モデルに、取得した対象画像を入力して前記対象画像の検査対象を検査するための複数のタスクを生成する、処理をコンピュータに実行させる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
検査対象に関する対象画像を取得し、
検査対象の画像を入力した場合、前記検査対象を検査するための複数のタスクを生成するタスク生成モデルに、取得した対象画像を入力して前記対象画像の検査対象を検査するための複数のタスクを生成する、
処理をコンピュータに実行させるコンピュータプログラム。
【請求項2】
前記タスク生成モデルは、
検査対象に関する文章を入力した場合、前記検査対象を検査するための複数のタスクを生成する文章タスク生成モデルを含み、
検査対象の画像を入力した場合、前記検査対象に関する文章を生成する文章生成モデルに、取得した対象画像を入力して前記対象画像の検査対象に関する文章を生成し、
生成した文章を前記文章タスク生成モデルに入力して、前記検査対象を検査するための複数のタスクを生成する、
処理をコンピュータに実行させる請求項1に記載のコンピュータプログラム。
【請求項3】
検査対象に関するヒアリング内容の要約を取得し、
取得した要約に基づいて前記文章生成モデルが生成した文章を評価し、
評価結果に基づいて前記文章生成モデルが生成した文章を修正し、
修正した文章を前記文章タスク生成モデルに入力して、前記検査対象を検査するための複数のタスクを生成する、
処理をコンピュータに実行させる請求項2に記載のコンピュータプログラム。
【請求項4】
前記複数のタスクそれぞれは、検査対象物を検出する対象物検出モデル、前記検査対象物の検査部位を分類する分類モデル、前記検査部位の欠陥候補を検出する欠陥候補検出モデル、又は前記欠陥候補の欠陥を判定する欠陥判定モデルのいずれか一つを用いて実行される、
請求項1に記載のコンピュータプログラム。
【請求項5】
検査対象が撮影された入力画像を取得し、
画像を入力した場合、前記画像のキャプションを生成する第1言語生成モデルに、取得した入力画像を入力して前記入力画像のキャプションを生成し、
テキストを入力した場合、前記テキストに沿った画像を生成する画像生成モデルに、生成したキャプションを入力して前記キャプションに沿った前記検査対象に関する対象画像を生成し、
生成した対象画像を取得する、
処理をコンピュータに実行させる請求項1から請求項4のいずれか一項に記載のコンピュータプログラム。
【請求項6】
検査対象に関するヒアリング内容を取得し、
ヒアリング内容を入力した場合、前記ヒアリング内容の要約を生成する第2言語生成モデルに、取得したヒアリング内容を入力して要約を生成し、
生成した要約に基づいて、前記第1言語生成モデルが生成したキャプションを修正し、
修正したキャプションを前記画像生成モデルに入力して前記対象画像を生成する、
処理をコンピュータに実行させる請求項5に記載のコンピュータプログラム。
【請求項7】
前記対象画像は、検査対象部位毎にセグメント化された分割画像を含む、
請求項1から請求項4のいずれか一項に記載のコンピュータプログラム。
【請求項8】
前記タスク生成モデルは、
検査対象部位毎にセグメント化された分割画像毎に1又は複数のタスクを生成する、
請求項1から請求項4のいずれか一項に記載のコンピュータプログラム。
【請求項9】
前記タスク生成モデルは、
GPTを含み、処理の順番が特定された複数のタスクを生成する、
請求項1から請求項4のいずれか一項に記載のコンピュータプログラム。
【請求項10】
前記タスク生成モデルは、
グラフ表示した複数のタスクを生成する、
請求項1から請求項4のいずれか一項に記載のコンピュータプログラム。
【請求項11】
前記画像生成モデルが生成した対象画像に対する編集操作を受け付け、
受け付けた編集操作に応じて前記複数のタスクを変更する、
処理をコンピュータに実行させる請求項5に記載のコンピュータプログラム。
【請求項12】
前記タスク生成モデルが生成する複数のタスクの候補を複数表示し、
表示した複数の候補の中から任意の候補の選択を受け付ける、
処理をコンピュータに実行させる請求項1から請求項4のいずれか一項に記載のコンピュータプログラム。
【請求項13】
検査対象に関する画像を入力した場合、検査部位の欠陥を示す欠陥画像を生成する欠陥画像生成モデルに、取得した対象画像を入力して前記対象画像の検査部位の欠陥画像を生成する、
処理をコンピュータに実行させる請求項1から請求項4のいずれか一項に記載のコンピュータプログラム。
【請求項14】
取得した対象画像のセグメント化された検査部位、検査対象に関するヒアリング内容、及び検査対象に関する検査仕様の少なくとも一つを前記欠陥画像生成モデルに入力して前記欠陥画像を生成する、
処理をコンピュータに実行させる請求項13に記載のコンピュータプログラム。
【請求項15】
前記複数のタスクの一部は、検査部位の欠陥を判定する欠陥判定モデルを用いて実行され、
生成した欠陥画像を教師データとして前記欠陥判定モデルを学習又は再学習する、
処理をコンピュータに実行させる請求項13に記載のコンピュータプログラム。
【請求項16】
制御部を備え、
前記制御部は、
検査対象に関する対象画像を取得し、
検査対象の画像を入力した場合、前記検査対象を検査するための複数のタスクを生成するタスク生成モデルに、取得した対象画像を入力して前記対象画像の検査対象を検査するための複数のタスクを生成する、
タスク生成装置。
【請求項17】
検査対象に関する対象画像を取得し、
検査対象の画像を入力した場合、前記検査対象を検査するための複数のタスクを生成するタスク生成モデルに、取得した対象画像を入力して前記対象画像の検査対象を検査するための複数のタスクを生成する、
タスク生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータプログラム、タスク生成装置及びタスク生成方法に関する。
【背景技術】
【0002】
特許文献1には、検査対象を撮像した画像に基づいて検査対象の良否判定を行う画像検査装置において、画像処理ツールのパラメータの調整が可能なルールベースの検査モードと、良品画像及び不良品画像に基づいて生成された識別器を用いる学習ベースの検査モードとを実装した画像検査装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
一般的に、ルールベースを用いた画像処理は、プログラミングと画像処理スキルを持つ専門のエンジニアが必要であり、エンジニアのスキルに依存して検出限界が決まる傾向がある。また複雑なテクスチャやグラデーション画像に対して画像処理アルゴリズムを構築することが困難であり、検査対象の種類に応じて画像処理アルゴリズムを変更するためのコストが高くなる。また検査仕様が明確でないと画像処理アルゴリズムを構築できない。
【0005】
また、学習モデルを用いて検査対象を検査する場合、画像処理スキルを持つエンジニアは不要だが、学習モデルの検出結果に対する検出根拠がブラックボックス化しているため、検査部位の検査基準を定量化することが困難である。このため、検査対象の検査部位に応じて検査基準が異なるような実際の検査には使えない場合が多い。
【0006】
本発明は、斯かる事情に鑑みてなされたものであり、検査部位に応じて検査基準が異なるような検査対象に対して検査を可能にするコンピュータプログラム、タスク生成装置及びタスク生成方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、コンピュータプログラムは、検査対象に関する対象画像を取得し、検査対象の画像を入力した場合、前記検査対象を検査するための複数のタスクを生成するタスク生成モデルに、取得した対象画像を入力して前記対象画像の検査対象を検査するための複数のタスクを生成する、処理をコンピュータに実行させる。
【発明の効果】
【0008】
本発明によれば、検査部位に応じて検査基準が異なるような検査対象に対して検査を可能にする。
【図面の簡単な説明】
【0009】
【
図1】本実施形態のタスク生成装置の構成の一例を示す図である。
【
図2】タスク生成装置の処理スキームの第1例を示す図である。
【
図3】第1言語生成モデルの構成の一例を示す図である。
【
図5】
図4に示す入力画像のキャプションの一例を示す図である。
【
図6】第2言語生成モデルの構成の一例を示す図である。
【
図7】ヒアリング内容(テキスト)の一例を示す図である。
【
図8】
図7に示すヒアリング内容の要約の一例を示す図である。
【
図9】
図4の入力画像に示す検査対象に関するヒアリング内容の要約の一例を示す図である。
【
図10】
図5のキャプションを修正した修正後キャプションの一例を示す図である。
【
図11】画像生成モデルの構成の一例を示す図である。
【
図13】文章生成モデルの構成の一例を示す図である。
【
図14】検査対象に関する文章(評価前)の一例を示す図である。
【
図15】検査対象に関する文章(評価後)の一例を示す図である。
【
図16】文章タスク生成モデルによる検査対象に関する文章を有向グラフに変換する過程の一例を示す図である。
【
図17】文章タスク生成モデル(タスク生成モデル)が生成する複数のタスクの一例を示す図である。
【
図18】各タスク専用の学習モデルの機能の一例を示す図である。
【
図19】欠陥画像生成モデルの処理の一例を示す図である。
【
図20】タスク生成装置の処理スキームの第2例を示す図である。
【
図21】タスク生成装置の処理スキームの第3例を示す図である。
【
図24】タスクアノテーション画面の一例を示す図である。
【
図25】正常品画像アノテーション画面の一例を示す図である。
【
図26】対象画像アノテーション画面(アノテーション前)の一例を示す図である。
【
図27】対象画像アノテーション画面(アノテーション後)の一例を示す図である。
【
図28】タスクフロー選択画面の一例を示す図である。
【
図29】タスク生成装置の処理手順の一例を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施の形態について説明する。
図1は本実施形態のタスク生成装置100の構成の一例を示す図である。タスク生成装置100は、装置全体を制御する制御部10、通信部11、メモリ12、表示部13、操作部14、記憶部15、処理部20、及び学習モデル部30を備える。処理部20は、分割領域検出機能21、統合機能22、及び評価機能23を備える。学習モデル部30は、第1言語生成モデル40、第2言語生成モデル50、画像生成モデル60、文章生成モデル70、タスク生成モデル80、及び欠陥画像生成モデル90を備える。タスク生成モデル80は、文章タスク生成モデル81を備える。
【0011】
制御部10は、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)、GPGPU(General-purpose computing on graphics processing units)等が所要数組み込まれて構成されている。また、制御部10は、DSP(Digital Signal Processors)、FPGA(Field-Programmable Gate Arrays)などを組み合わせて構成してもよい。
【0012】
通信部11は、通信モジュールを備え、外部の装置(不図示)との間の通信機能を有する。通信部11は、外部の装置又はデータサーバなどから、検査対象である商品又は部品が撮影された画像(入力画像)、検査対象と同じ商品又は部品であって欠陥のない正常品の画像(正常品画像)を受信し、受信した画像を記憶部15に記憶することができる。また、通信部11は、外部の装置又はデータサーバなどから、検査対象に対するヒアリングの内容を記録したファイル等を受信し、受信したファイル等を記憶部15に記憶することができる。ヒアリングの内容の詳細は後述する。
【0013】
メモリ12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の半導体メモリで構成することができる。
【0014】
表示部13は、液晶ディスプレイ又は有機ELディスプレイなどで構成することができる。なお、表示部13に代えて、外部の表示装置をタスク生成装置100に接続するようにしてもよい。
【0015】
操作部14は、例えば、キーボード、マウス、タッチパッド又はタッチパネル等で構成され、表示部13に表示される情報に対する操作を受け付けることができる。
【0016】
記憶部15は、例えば、ハードディスク又は半導体メモリ等で構成することができ、コンピュータプログラム(プログラム製品)16、及び所要の情報を記憶することができる。記憶部15は、学習モデル部30を記憶してもよい。
【0017】
コンピュータプログラム16は、制御部10の制御の下、メモリ12に展開されて、制御部10により実行される。コンピュータプログラム16は、通信部11を介して、外部の装置からダウンロードして記憶部15に格納してもよい。また、記録媒体(例えば、CD-ROM等の光学可読ディスク記憶媒体)に記録されたコンピュータプログラム16を記録媒体読取部で読み取って記憶部15に格納してもよい。コンピュータプログラム16は、単一のコンピュータ上で、または1つのサイトにおいて配置されるか、もしくは複数のサイトに亘って分散され、通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開することができる。
【0018】
処理部20及び学習モデル部30の詳細は後述する。
【0019】
タスク生成装置100(制御部10)は、前述の検査対象が撮影された入力画像、検査対象に関するヒアリング内容を取得し、処理部20及び学習モデル部30による処理を行うことで、検査対象を検査するための複数のタスクを生成する。検査対象に関するヒアリング内容は必須ではないが、検査対象に対してどのような検査思考で検査しているかという、入力画像だけでは推論することが困難である画像外の知識を補完するためには、ヒアリング内容を取得することが好ましい。本明細書において、「複数のタスク」とは、検査対象に応じて、どのように検査を行うかを表す検査思考に沿った検査手順の流れを示す一連のタスクである。「タスク」は、検査手順の中の個々の処理である。具体的には、「タクス」は、画像の中から検査対象を検出する処理、検出した検査対象の中から検査対象部位を分類する処理、分類した検査対象部位の欠陥(欠陥候補)を検出する処理、検出した欠陥(欠陥候補)の欠陥の有無を判定する処理などが該当する。
【0020】
次に、複数のタスクを生成するための処理スキームについて説明する。
【0021】
図2はタスク生成装置100の処理スキームの第1例を示す図である。制御部10は、検査対象が撮影された入力画像を第1言語生成モデル40に入力すると、第1言語生成モデル40は、入力画像のキャプションを生成し、生成したキャプションを統合機能22へ出力する。制御部10は、検査対象に関するヒアリング内容を第2言語生成モデル50に入力すると、第2言語生成モデル50は、ヒアリング内容の要約を生成し、生成した要約を統合機能22及び評価機能23へ出力する。統合機能22は、要約に基づいて入力されたキャプションを修正し、修正後のキャプションを画像生成モデル60へ出力する。
【0022】
制御部10は、正常品画像(検査対象と同じ製品又は部品であって欠陥のない正常品の画像)を分割領域検出機能21に入力すると、分割領域検出機能21は、分割領域情報を生成し、生成した分割領域情報を画像生成モデル60へ出力する。分割領域情報は、検査対象をセグメント化する際に補助的に用いられる情報を含む。画像生成モデル60は、入力された修正後キャプション及び分割領域情報に基づいて、検査対象に関する対象画像を生成し、生成した対象画像を文章生成モデル70へ出力する。対象画像は、検査対象の検査部位毎にセグメント化された画像である。検査対象が金属部品と樹脂部品とで構成される場合、対象画像は、例えば、金属部品と樹脂部品とを分割した分割画像で構成される。
【0023】
文章生成モデル70は、対象画像が入力されると、対象画像の検査対象に関する文書を生成し、生成した文書を評価機能23へ出力する。評価機能23は、要約に基づいて、入力された文章を評価し、許容範囲内でない場合、文章を修正し、修正後文章を画像生成モデル60へ出力する。画像生成モデル60は、入力された修正後文書に基づいて、再度対象画像を生成し、生成した対象画像を文章生成モデル70へ出力して、同様の処理を繰り返す。
【0024】
評価機能23は、入力された文章の評価が許容範囲内である場合、当該文章を文章タスク生成モデル81へ出力する。文章タスク生成モデル81は、入力された文章に基づいて複数のタスクを生成し、生成した複数のタスクを出力する。
【0025】
【0026】
図3は第1言語生成モデル40の構成の一例を示す図である。第1言語生成モデル40は、例えば、VLP(Vision-Language Pre-training)フレームワークであるBLIP等で構成することができ、イメージエンコーダ41(例えば、ViT:Vision Transformer)、テキストエンコーダ42(例えば、BERT:Bidirectional Encoder Representations from Transformers)を備える。イメージエンコーダ41は、入力画像から特徴量を抽出し、抽出した特徴量をテキストエンコーダ42へ出力する。
【0027】
図4は入力画像の一例を示す図である。入力画像が示すように、検査対象である商品(商品AAと称する)の全体形状は円形状の物体であり、商品は円板状の金属部品、金属部品の外周に対向して取り付けられた2つの金具、円板状の中央に取り付けられた樹脂部品を備えていることが分かる。なお、入力画像は一例であって、
図4の例に限定されない。
【0028】
図3に戻って、テキストエンコーダ42は、入力された特徴量に基づいて、視覚的情報が言語的情報に変換され、入力画像のキャプションを生成する。
【0029】
図5は
図4に示す入力画像のキャプションの一例を示す図である。
図5に示すように、キャプションは、例えば、「・円形状の物体は商品AAです。商品AAは円板状の金属部品、金属部品の外周に取り付けられた2つの金具、金属部品の中央部に取り付けられた矩形状の樹脂部品で構成されます。・金属部品には穴があります。・樹脂部品の表面は平坦になっています。…」の如くである。なお、キャプションの例は一例であって、
図5の例に限定されない。
【0030】
上述のように、制御部10は、検査対象が撮影された入力画像を取得し、画像を入力した場合、当該画像のキャプションを生成する第1言語生成モデル40に、取得した入力画像を入力して当該入力画像のキャプションを生成することができる。
【0031】
図6は第2言語生成モデル50の構成の一例を示す図である。第2言語生成モデル50は、Transformerと呼ばれる、深層学習の手法を用いた言語モデルが採用されたGPT-3をベースにしたChat-GPTなどを用いることができ、埋め込み部51、デコード層52、及び変換部53を備える。埋め込み部51は、検査対象に関するヒアリング内容が入力されると、入力されたヒアリング内容(テキスト)をトークンに分解して、多次元ベクトル(ヒアリングベクトル)に変換する。
【0032】
図7はヒアリング内容(テキスト)の一例を示す図である。ヒアリング内容は、例えば、検査対象となる商品について、商品を製造・検査・販売する企業の検査担当者(客)と、商品を検査する検査装置を製造・販売又は検査技術を支援する企業の担当者との間で交わされた会話の内容である。ヒアリング内容を取得することで、検査担当者(客)が、どのような思考で検査を行っているか(例えば、どのような検査を行うか、検査の手順、欠陥の有無を判定する基準(検査基準など)、検査を行う上での注意点)を聞き出すことができる。
【0033】
図6に戻って、デコード層52は、複数のTransformer Decoderを備え、入力された多次元ベクトル(ヒアリングベクトル)に基づいて、各トークンの関係性を示すスコアを算出し、算出したスコアに基づいて要約を表現するベクトル(要約ベクトル)を算出し、算出した要約ベクトルを変換部53へ出力する。変換部53は、要約ベクトルを単語に変換することで要約を生成する。
【0034】
図8は
図7に示すヒアリング内容の要約の一例を示す図である。
図8に示すように、要約は、
図7に示すヒアリング内容から商品の検査に必要な情報を抽出するとともに、不要な情報を削除する。これにより、入力画像だけでは読み取れない検査に関する知識を抽出することができ、入力画像の視覚的情報を補完して検査に必要となる情報を得ることができる。
【0035】
図9は
図4の入力画像に示す検査対象に関するヒアリング内容の要約の一例を示す図である。便宜上、ヒアリング内容は省略しているが、
図4に示すような検査対象に関しては、例えば、「・商品AAの金属部品には4つの穴があります。4つの穴の付近にはキズが付きやすいです。円板状の外周付近には切欠き上のキズが付きやすいです。・樹脂部品の表面にはしみや天井のキズが付きやすいです。…」の如く要約が生成される。なお、要約は一例であって、
図9の例に限定されない。
【0036】
上述のように、制御部10は、検査対象に関するヒアリング内容を取得し、ヒアリング内容(テキスト)を入力した場合、当該ヒアリング内容の要約を生成する第2言語生成モデル50に、取得したヒアリング内容を入力して要約を生成することができる。
【0037】
統合機能22(制御部10)は、第2言語生成モデル50が生成した要約に基づいて、第1言語生成モデル40が生成したキャプションを修正し、修正後キャプションを画像生成モデル60へ出力する。
【0038】
図10は
図5のキャプションを修正した修正後キャプションの一例を示す図である。入力画像のキャプションは、入力画像から抽出される視覚的情報を言語的情報に変換したものであり、入力画像内の検査対象の視覚的情報を言語として表現するものであるため、検査対象の検査に必要な情報も含まれ、また検査に不要な情報も含まれる。例えば、
図5に示す入力画像のキャプションにおいて、「検査対象が商品AAであること」、「商品AAの金属部品の外周に2つの金具が取り付けられていること」、「金属部品に穴があること」、「樹脂部品の表面が平坦であること」等は、商品仕様から分かることであり、入力画像を補完する情報として画像生成モデル60(タスク生成装置100)に指示する必要はないと考えられる。一方で、ヒアリング内容の要約は、検査対象の検査に関して有用な情報を含むので、要約に含まれる情報を用いて、入力画像のキャプションから不要な情報を取り除き、有用な情報を追加することで修正後キャプションを生成することができる。
図10に示す修正後のキャプションでは、
図5に示す入力画像のキャプションから不要な情報を取り除き、
図9に示す要約から必要な情報を追加している。
【0039】
分割領域検出機能21は、画像を生成する拡散モデルに、新たな画像を生成するような学習手法や、画像の輪郭・領域を抽出する機能、画像の一部を修正する機能、輪郭や領域を修正する機能などを含むアルゴリズムを追加して、領域を分割するスタイルを学習した生成モデルである。分割領域検出機能21は、正常品画像が入力されると、分割領域情報を生成し、生成した分割領域情報を画像生成モデル60へ出力する。分割領域情報は、領域を分割するために必要な情報を含む。例えば、(1)検査対象を外観の特徴(例えば、エッジ、色の切り替わり、線分など)によって分割するための情報、(2)検査対象を検査都合や機能(例えば、表面粗さ、後工程での追加加工の有無や違い等)、あるいは照明の都合によって分割領域をグルーピングして分割するための情報、(3)人間の感覚的な要求(例えば、エッジから何ミリという曖昧な指定)によって分割するための情報などが含まれる。
【0040】
図11は画像生成モデル60の構成の一例を示す図である。画像生成モデル60は、例えば、Text2Imageなどで構成することができ、テキストエンコーダ61、拡散モデル62、イメージデコーダ63、及び画像処理部64などを備える。テキストエンコーダ61は、修正後キャプション(テキスト)が入力されると、単語ごとに単語ベクトルに変換した後、Transformerでテキストの意味を示す特徴ベクトル(テキスト特徴ベクトル)を抽出し、抽出したテキスト特徴ベクトルを拡散モデル62へ出力する。
【0041】
拡散モデル62は、入力されたテキスト特徴ベクトルをイメージ特徴ベクトルに変換し、変換したイメージ特徴ベクトルをイメージデコーダ63へ出力する。
【0042】
イメージデコーダ63は、イメージ特徴ベクトルが入力されると、イメージ特徴ベクトルを画像に変換し、変換した画像を画像処理部64へ出力する。イメージデコーダ63は、検査対象をセグメント化した対象画像の暫定画像を生成することができる。
【0043】
画像処理部64は、イメージデコーダ63が出力する対象画像の暫定画像に対して、分割領域情報に基づいて、分割する領域や輪郭を修正し、対象画像を生成する。画像生成モデル60は、生成した対象画像を文章生成モデル70へ出力する。
【0044】
なお、画像処理部64、及び分割領域情報は必須ではない。この場合、イメージデコーダ63は、検査対象をセグメント化した対象画像を生成し、生成した対象画像を文章生成モデル70へ出力する。
【0045】
図12は対象画像の一例を示す図である。
図12に示す対象画像は、
図4に示す入力画像の検査対象に対応するものである。
図12に示すように、対象画像は、例えば、金属部品を示すセグメントS1、樹脂部品を示すセグメントS2、金具を示すセグメントS3の3種類のセグメントに分割されている。各セグメントを分割画像とも称する。対象画像は、検査対象部位毎にセグメント化された分割画像を含む。
【0046】
上述のように、制御部10は、テキストを入力した場合、当該テキストに沿った画像を生成する画像生成モデル60に、第1言語生成モデル40が生成キャプションを入力して当該キャプションに沿った対象画像を生成し、生成した対象画像を取得することができる。
【0047】
また、制御部10は、統合機能22が修正したキャプションを画像生成モデル60に入力して対象画像を生成してもよい。
【0048】
図13は文章生成モデル70の構成の一例を示す図である。文章生成モデル70は、例えば、BLIP等で構成することができ、イメージエンコーダ71(例えば、ViT:Vision Transformer)、テキストエンコーダ72(例えば、BERT:Bidirectional Encoder Representations from Transformers)を備える。イメージエンコーダ71は、対象画像から特徴量を抽出し、抽出した特徴量をテキストエンコーダ72へ出力する。
【0049】
テキストエンコーダ72は、入力された特徴量に基づいて、視覚的情報が言語的情報に変換され、対象画像の検査対象に関する文章を生成する。文章生成モデル70は、生成した文章を評価機能23へ出力する。なお、生成した文章の評価を必要としない場合には、文章生成モデル70は、生成した文章を文章タスク生成モデル81へ出力してもよい。
【0050】
図14は検査対象に関する文章(評価前)の一例を示す図である。
図14の例では、検査対象に関する文章は、「・検査対象は金属部品、樹脂部品、及び金具の3つの部品で構成されている。金属部品は円板状で4つ穴がある。4つの穴の周辺はキズが付きやすい。金属部品の外周付近には切欠き状のキズが付きやすい。金属部品の表面には商品の型番が刻印されている。・金属部品の円板状の中央には矩形状の樹脂部品が取り付けられている。樹脂部品の表面は平坦で硬さ値は○○~△△の間にあるため、表面に小さなキズが付きやすい。・金具は金属部品の外周の2箇所に取り付けられている。金具は検査対象外である。…」の如くである。
【0051】
上述のように、制御部10は、検査対象の画像を入力した場合、当該検査対象に関する文章を生成する文章生成モデル70に、取得した対象画像を入力して当該対象画像の検査対象に関する文章を生成することができる。
【0052】
評価機能23(制御部10)は、検査対象に関するヒアリング内容の要約を取得し、取得した要約に基づいて文章生成モデル70が生成した文章を評価し、評価結果に基づいて文章生成モデル70が生成した文章を修正する。具体的には、評価機能23は、文章生成モデル70が生成した文章と要約との類似度を算出し、算出した類似度が許容範囲内にあるか否かを判定し、許容範囲内でない場合には、文章生成モデル70が生成した文章を修正し、修正後文章を画像生成モデル60へ出力して、画像生成モデル60による処理を繰り返す。文章の修正方法は、例えば、ルールベースなどの手法を用いればよい。一方、算出した類似度が許容範囲内にある場合には、文章生成モデル70が生成した文章を文章タスク生成モデル81へ出力する。
【0053】
文章生成モデル70が生成した文章の評価は以下の手順で行うことができる。すなわち、(1)文章生成モデル70が生成した文章及び要約それぞれの形態素解析を行って単語に分解する。(2)文章及び要約に出現した単語を並べて、文章及び要約について用いられている単語は1を割り当て、用いられていない単語は0を割り当てることで、文章及び要約をベクトル化する。(3)文章及び要約のベクトル同士のコサイン類似度を算出し、算出したコサイン類似度が所定の閾値以上であれば許容範囲内とすることができる。なお、類似度の算出はコサイン類似度に限定されない。
【0054】
図15は検査対象に関する文章(評価後)の一例を示す図である。
図15の例では、検査対象に関する文章は、「・検査対象は円板状の金属部品と樹脂部品である。金属部品には商品の型番が刻印され、4つの穴の周辺はキズが付きやすく、外周付近には切欠き状のキズが付きやすい。・樹脂部品の表面には小さなキズが付きやすい。…」の如くである。
【0055】
文章タスク生成モデル81は、例えば、Graph-GPT(GPT-3)などで構成することができ、非構造化自然言語をナレッジグラフ(知識グラフ)に変換することで、入力された文章(検査対象に関する文章)に基づいて、複数のタスクを生成する。複数のタスクは、有向グラフやJSON(JavaScript Object Notation)形式で生成することができる。
【0056】
図16は文章タスク生成モデル81による検査対象に関する文章を有向グラフに変換する過程の一例を示す図である。
図16では、NO.1~No.5の5つのステップを表している。第1ステップでは、文章の中の「検査対象」という文言が、「入力画像」→「対象検出」→「検出スコアマップ補正」という3つのタスクの有向グラフに変換されている。
【0057】
第2ステップでは、文章の中の「検査対象は…金属部品と樹脂部品である」という文言が、第1ステップの「検出スコアマップ補正」に続いて、「検出スコアマップ補正」→「種別分類」という2つのタスクの有向グラフに変換されている。
【0058】
第3ステップでは、文章の中の「金属部品には商品の型番が刻印され…」という文言が、第2ステップの「種別分類」に続いて、「種別分類」→「文字抽出」→「テキスト検出」という3つのタスクの有向グラフに変換されている。
【0059】
第4ステップでは、文章の中の「金属部品には…キズが付きやすく…切欠き状のキズが付きやすい」という文言が、第2ステップの「種別分類」に続いて、「種別分類」→「画像加工」→「欠陥検出」という3つのタスクの有向グラフに変換されている。
【0060】
第5ステップでは、文章の中の「樹脂部品の表面には小さなキズが付きやすい」という文言が、第2ステップの「種別分類」に続いて、「種別分類」→「画像加工」→「欠陥検出」という3つのタスクの有向グラフに変換されている。
【0061】
図17は文章タスク生成モデル81(タスク生成モデル80)が生成する複数のタスクの一例を示す図である。
図17に示す複数のタスクは、
図16で示した有向グラフを纏めたものである。
図17において、タスクは、「入力画像」、「対象検出」M1、「検出スコアマップ補正」、「種別分類」M2、「文字抽出」M3、「テキスト検出」M4、「画像加工」、「欠陥検出」M5、「画像加工」、「欠陥検出」M6である。符号M1~M6は、それぞれのタスクに特化した処理を行う、それぞれが異なる学習モデルを表す。
【0062】
図18は各タスク専用の学習モデルの機能の一例を示す図である。タスク「対象検出」M1は、セグメンテーションを行う専用の学習モデルによって処理が行われ、当該学習モデルは、検査対象となる物体(ワーク)の検出を行う。
【0063】
タスク「種別分類」M2は、分類を行う専用の学習モデルによって処理が行われ、当該学習モデルは、検査対象を金属部品、樹脂部品、及び金具に分類する。
【0064】
タスク「文字抽出」M3は、セグメンテーションを行う専用の学習モデルによって処理が行われ、当該学習モデルは、検査対象内の文字領域を抽出する。
【0065】
タスク「テキスト検出」M4は、文字認識を行う専用の学習モデルによって処理が行われ、当該学習モデルは、文字領域内の文字を認識してテキストを検出する。
【0066】
タスク「欠陥検出」M5は、セグメンテーションを行う専用の学習モデルによって処理が行われ、当該学習モデルは、金属部品の欠陥箇所を検出する。
【0067】
タスク「欠陥検出」M6は、セグメンテーションを行う専用の学習モデルによって処理が行われ、当該学習モデルは、樹脂部品の欠陥箇所を検出する。
【0068】
タスク「検出スコアマップ補正」は、タスク「対象検出」M1で検出した対象物の領域の一部を削除する処理、あるいは離隔した領域を連結する処理を行って、対象物の領域を調整する。タスク「画像処理」は、検査部位の属性(この場合、金属部品と樹脂部品)に応じて、欠陥検出の精度が向上するような前処理を行う。
【0069】
上述のように、制御部10は、文章生成モデル70が生成した文章を文章タスク生成モデル81に入力して、検査対象を検査するための複数のタスクを生成することができる。また、制御部10は、評価機能23が修正した文章を文章タスク生成モデル81に入力して、検査対象を検査するための複数のタスクを生成してもよい。
【0070】
複数のタスクそれぞれは、検査対象物を検出する対象物検出モデル、検査対象物の検査部位を分類する分類モデル、検査部位の欠陥候補を検出する欠陥候補検出モデル、又は欠陥候補の欠陥を判定する欠陥判定モデルのいずれか一つを用いて実行することができる。
【0071】
また、上述のように、文章タスク生成モデル81(タスク生成モデル80)は、検査対象部位毎にセグメント化された分割画像毎に1又は複数のタスクを生成することができる。また、文章タスク生成モデル81(タスク生成モデル80)は、GPTを含み、処理の順番が特定された複数のタスクを生成することができる。また、文章タスク生成モデル81(タスク生成モデル80)は、グラフ表示した複数のタスクを生成することができる。
【0072】
上述のように、本実施形態によれば、検査対象を検査するための複数のタスクを生成するので、検査アルゴリズムを構築するためのプログラミングを作成する必要がなく、また各タスクが、検査対象の検査部位に応じた処理を行う専用の学習モデルで実現されるので、検査部位に応じて検査基準が異なるような検査対象に対して検査を可能にする。
【0073】
また、一般的な画像検査では、領域を推定し、推定した領域のクラス推定を行うことで検査対象物の良否を判定する学習モデルが用いられる場合が多いが、このような学習モデルは、対象物に対して全て同一の処理がなされる。しかし、実際の外観検査では、クラス(検査対象部位)毎にアスペクト比、サイズ、出現頻度などのばらつきが多く、また各クラスで個別の調整や検査基準が異なるケースが多い。本実施形態によれば、一つの学習モデルで検査対象の検査を行うわけでなく、検査対象の検査部位に応じて、個々の検査部位に対して最適化された専用又は個別の学習モデルによる処理を定める複数のタスクを生成するので、多様な検査基準が存在する検査対象の検査を実施することができる。
【0074】
図19は欠陥画像生成モデル90の処理の一例を示す図である。欠陥画像生成モデル90は、第1欠陥画像生成モデル91、及び第2欠陥画像生成モデル92を備える。第1欠陥画像生成モデル91及び第2欠陥画像生成モデル92を纏めて欠陥画像生成モデル90とも称する。欠陥画像生成モデル90は、例えば、SceneComposerのようなマルチモーダルな生成モデルで構成することができ、検査対象に関する対象画像が入力されると、欠陥(例えば、キズなど)が描かれた欠陥画像を生成することができる。対象画像を入力する際に、設定条件も入力することにより、設定条件に応じた欠陥画像が生成される。
【0075】
設定条件はテキストで表すことができる。設定条件は、例えば、検査対象に対する検査仕様、検査対象に関するヒアリング内容などを含む。検査仕様は、例えば、「検査対象の部品の外周から○○mm以内の範囲の検査は厳しくする」、「樹脂部品の表面は厳しく検査する」、「金属部品の穴の周囲の検査は厳しくする」等を設定できる。なお、設定条件はこれらに限定されない。
【0076】
図19の例では、検査対象の金属部品の画像(金属部品画像)に対しては、金属部品に特化した第1欠陥画像生成モデル91が用いられている。また、検査対象の樹脂部品の画像(樹脂部品画像)に対しては、樹脂部品に特化した第2欠陥画像生成モデル92が用いられている。このように、検査対象の検査部位に応じて最適な欠陥画像生成モデルを使用することができる。なお、検査部位は、金属部品又は樹脂部品に限定されるものではない。
【0077】
上述のように、制御部10は、検査対象に関する画像を入力した場合、検査部位の欠陥を示す欠陥画像を生成する欠陥画像生成モデル90に、取得した対象画像を入力して対象画像の検査部位の欠陥画像を生成することができる。
【0078】
また、制御部10は、取得した対象画像のセグメント化された検査部位、検査対象に関するヒアリング内容、及び検査対象に関する検査仕様の少なくとも一つを欠陥画像生成モデル90に入力して欠陥画像を生成することができる。
【0079】
欠陥画像生成モデル90によって生成された欠陥画像を収集しておき、収集した欠陥画像を、
図17に示すタスク「欠陥検出」M5、M6を実行する際に使用する学習モデル(欠陥判定モデル)の学習又は再学習時の教師データとして使用することができる。
【0080】
すなわち、制御部10は、検査部位の欠陥を判定する欠陥判定モデルを用いて実行されるタスクの当該欠陥判定モデルを、生成した欠陥画像を教師データとして用いて欠陥判定モデルを学習又は再学習することができる。これにより、欠陥検出の精度を向上させることができる。
【0081】
図20はタスク生成装置100の処理スキームの第2例を示す図である。
図2に示す第1例との相違点は、第1例の文章生成モデル70、評価機能23、及び文章タスク生成モデル81を具備しない点である。第2例では、画像生成モデル60が生成した対象画像は、タスク生成モデル80へ出力される。他の箇所は第1例と同様であるので、説明を省略する。
【0082】
タスク生成モデル80は、例えば、GPT+Graph-GPTなどで構成され、対象画像が入力されると、複数のタスクを生成して出力する。
【0083】
上述のように、制御部10は、検査対象に関する対象画像を取得し、検査対象の画像を入力した場合、当該検査対象を検査するための複数のタスクを生成するタスク生成モデル80に、取得した対象画像を入力して対象画像の検査対象を検査するための複数のタスクを生成することができる。
【0084】
上述のように、検査対象を検査するための複数のタスクを生成するので、検査アルゴリズムを構築するためのプログラミングを作成する必要がなく、また各タスクが、検査対象の検査部位に応じた処理を行う専用の学習モデルで実現されるので、検査部位に応じて検査基準が異なるような検査対象に対して検査を可能にする。
【0085】
図21はタスク生成装置100の処理スキームの第3例を示す図である。第3例では、第1言語生成モデル40、第2言語生成モデル50、統合機能22、及びタスク生成モデル80を備える。第1言語生成モデル40、第2言語生成モデル50、及び統合機能22は、第1例の場合と同様であるので説明を省略する。
【0086】
タスク生成モデル80は、例えば、画像及びテキストを入力できるマルチモーダルなGPT-4などで構成することができる。タスク生成モデル80は、入力画像、及び統合機能22が生成した修正後キャプションが入力されると、複数のタスクを生成して出力することができる。
【0087】
すなわち、制御部10は、第1言語生成モデル40が生成したキャプション又は統合機能22によって修正された修正後キャプション、及び検査対象に関する入力画像を取得し、キャプション又は修正後キャプション、及び入力画像を入力した場合、複数のタスクを生成するタスク生成モデル80に、取得したキャプション又は修正後キャプション、及び入力画像を入力して、複数のタスクを生成することができる。
【0088】
このように、検査対象を検査するための複数のタスクを生成するので、検査アルゴリズムを構築するためのプログラミングを作成する必要がなく、また各タスクが、検査対象の検査部位に応じた処理を行う専用の学習モデルで実現されるので、検査部位に応じて検査基準が異なるような検査対象に対して検査を可能にする。
【0089】
次に、タスク生成装置100(表示部13又は外部の表示装置)で表示される表示画面について説明する。
【0090】
図22はタスク作成画面210の一例を示す図である。ユーザは、所望のプロジェクト名を指定することができ、データセット名を選択することで、入力画像と正常品画像のサムネイル画像が表示される。ユーザは、さらに検査対象に関するヒアリング内容(ファイル)を選択することができる。あるいは、コメント欄211にヒアリング内容のテキストを入力してもよい。ユーザは、所望のグループ名を指定できる。例えば、商品のロット毎に異なるグループ名を指定できる。「作成」アイコンを操作することで、タスク生成装置100内の各部の処理が行われ、複数のタスクが生成される。また、「キャンセル」アイコンを操作することで、選択又は入力した内容をキャンセルすることができる。
【0091】
図23は検査設定画面220の一例を示す図である。ユーザは、所望のプロジェクト名を指定することができ、生成された複数のタスクの一覧から所望のタスクを選択する。
図23の例では、タスク:××欠陥検出221が選択されている。ユーザは、選択されたタスクが実行される際のパラメータを設定欄222で設定できる。例えば、
図23のように、タスクが検査に関するタスクである場合、検査内容を具体的に設定できる。検査内容は、例えば、キズの種類、キズの長さ、キズの面積、キズの個数、キズの総面積などを含む。検査内容を設定することで、欠陥の有無を判定する際の条件を設定できる。「設定」アイコンを操作することで検査内容が設定される。また、「キャンセル」アイコンを操作することで、選択又は入力した内容をキャンセルすることができる。
【0092】
図24はタスクアノテーション画面230の一例を示す図である。タスクフロー欄には、生成された複数のタスクがグラフ表示されている。ユーザは、アノテーションしたいタスクを選択することができる。ユーザは、カーソル231を所望のタスクへ移動させて所望のタスクを選択することができる(例えば、タスク「欠陥検出」:図中模様があるタスク)。アノテーション内容欄には、検査対象の画像(対象画像又は入力画像)が表示される。ユーザは、編集ツール233の中から所望のツールを選択して検査対象の画像を編集できる。図の例では、ツール232を使って検査対象の外周の一部にアノテーションを加えている(図中、模様の部分)。また、ユーザは、アノテーションに関する指示内容を入力欄234に入力することができる。図の例では、「欠陥検出領域に加える」という指示が入力されている。「実行」アイコンを操作することでアノテーションが実行される。また、「キャンセル」アイコンを操作することで、編集内容や入力した内容をキャンセルすることができる。
【0093】
選択されたタスクを実行する学習モデルは、アノテーションによって加えられた領域を欠陥検出領域として欠陥を検出することができる。
【0094】
図25は正常品画像アノテーション画面240の一例を示す図である。ユーザは、所望のプロジェクト名を指定することができ、データセット名を選択することで、検査対象の元画像が表示されるとともに、編集画像を表示する編集画像欄が表示される。編集前の段階では、編集画像欄には元画像が表示される。ユーザは、編集ツール242の中から所望のツールを選択して元画像を編集できる。図の例では、ツール241を使って元画像内の検査部位の領域を編集している(図中、模様の部分)。「実行」アイコンを操作することで編集が実行される。また、「キャンセル」アイコンを操作することで、編集内容をキャンセルすることができる。
【0095】
分割領域検出機能21は、編集画像に基づいて分割領域情報を生成することができる。
【0096】
図26は対象画像アノテーション画面(アノテーション前)250の一例を示す図である。対象画像アノテーション画面250には、対象画像及び当該対象画像に基づいて生成された複数のタスクがグラフ表示されている。アノテーション前の対象画像は、符号251、及び符号252で示す2つの領域にセグメント化(分割)されているとする。複数のタスクの有向グラフは、途中で2つに分岐している。
【0097】
図27は対象画像アノテーション画面(アノテーション後)260の一例を示す図である。
図27に示すように、アノテーションによって、対象画像の2つのセグメント251、252が1つのセグメント261に修正されると、複数のタスクの有向グラフは自動的に修正され、分岐がなくなっている。また、タスクの数や種類も適宜変更される。
【0098】
このように、制御部10は、画像生成モデル60が生成した対象画像に対する編集操作を受け付け、受け付けた編集操作に応じて複数のタスクを変更することができる。これにより、ユーザは、検査対象に関する対象画像を編集するだけで、検査対象を検査するための複数のタスクを変更できるので、プログラミングスキルや画像処理スキルを持った専門のエンジニアが不要であり、ノーコードで検査手順や検査内容を変更することができ、様々な検査部位に対して容易に検査することができる。
【0099】
図28はタスクフロー選択画面270の一例を示す図である。タスクフロー選択画面270には、候補1、2、3それぞれのタスクフロー及び作業工数が表示されている。ユーザは、候補1、2、3それぞれを選択する選択ボックス271、272、273のいずれかを選択することで、複数の候補の中から所要のタスクフローを選択できる。
図28の例では、候補1が選択されている。「実行」アイコンを操作することで選択が実行される。また、「キャンセル」アイコンを操作することで、選択ボックスの選択をキャンセルすることができる。
【0100】
このように、制御部10は、タスク生成モデル80が生成する複数のタスクの候補を複数表示し、表示した複数の候補の中から任意の候補の選択を受け付けることができる。これにより、ユーザは、同じ検査対象であっても製造方法や用途が異なる場合、あるいは顧客の要求が異なる場合でも、適切なタスクフローを選定できる。
【0101】
図29はタスク生成装置100の処理手順の一例を示す図である。便宜上、処理の主体を制御部10として説明する。制御部10は、検査対象が撮影された入力画像を取得し(S11)、正常な部品が撮影された正常品画像を取得する(S12)。制御部10は、検査対象に関するヒアリング内容を取得する(S13)。
【0102】
制御部10は、正常品画像に基づいて分割領域情報を生成する(S14)。制御部10は、入力画像を第1言語生成モデル40に入力して、入力画像のキャプションを生成し(S15)、ヒアリング内容を第2言語生成モデル50に入力して、ヒアリング内容の要約を生成する(S16)。
【0103】
制御部10は、生成した要約に基づいてキャプションを修正する(S17)。キャプションの修正は
図5及び
図10を参照。制御部10は、修正後キャプション及び分割領域情報を画像生成モデル60に入力して、対象画像を生成する(S18)。
【0104】
制御部10は、対象画像を文章生成モデル70に入力して検査対象に関する文章を生成し(S19)、ヒアリング内容の要約に基づいて、生成した文章を評価する(S20)。評価は、文章と要約とのコサイン類似度を用いることができる。制御部10は、評価結果が許容範囲内であるか否かを判定し(S21)、許容範囲内でない場合(S21でNO)、修正した文章を画像生成モデル60に入力して対象画像を生成し(S22)、ステップS19以降の処理を続ける。
【0105】
評価結果が許容範囲内である場合(S21でYES)、制御部10は、生成した文章を文章タスク生成モデル81に入力して、複数のタスクを生成し(S23)、処理を終了する。
【0106】
本実施形態によれば、複数のタスクの全部又は一部で特定される検査項目に応じて適切かつ検査部位に応じた細かな検査設定を行うことが可能である。また、タスクが一つの学習モデルに対応し、検査対象の検査全体を複数の専用の学習モデルを用いて行うことができ、1つ1つの学習モデルの機能や役割が明確になるため、検査結果に対する根拠や理由が比較的明瞭になり、検査部位の検査基準を定量化が可能になる。また、タスクごとに必要な解像度で処理ができるため、一律に高い解像度を用いる必要がなく処理を高速に実行することが可能になる。
【0107】
(付記1)コンピュータプログラムは、検査対象に関する対象画像を取得し、検査対象の画像を入力した場合、前記検査対象を検査するための複数のタスクを生成するタスク生成モデルに、取得した対象画像を入力して前記対象画像の検査対象を検査するための複数のタスクを生成する、処理をコンピュータに実行させる。
【0108】
(付記2)コンピュータプログラムは、付記1において、前記タスク生成モデルは、検査対象に関する文章を入力した場合、前記検査対象を検査するための複数のタスクを生成する文章タスク生成モデルを含み、検査対象の画像を入力した場合、前記検査対象に関する文章を生成する文章生成モデルに、取得した対象画像を入力して前記対象画像の検査対象に関する文章を生成し、生成した文章を前記文章タスク生成モデルに入力して、前記検査対象を検査するための複数のタスクを生成する、処理をコンピュータに実行させる。
【0109】
(付記3)コンピュータプログラムは、付記2において、検査対象に関するヒアリング内容の要約を取得し、取得した要約に基づいて前記文章生成モデルが生成した文章を評価し、評価結果に基づいて前記文章生成モデルが生成した文章を修正し、修正した文章を前記文章タスク生成モデルに入力して、前記検査対象を検査するための複数のタスクを生成する、処理をコンピュータに実行させる。
【0110】
(付記4)コンピュータプログラムは、付記1から付記3のいずれか一つにおいて、前記複数のタスクそれぞれは、検査対象物を検出する対象物検出モデル、前記検査対象物の検査部位を分類する分類モデル、前記検査部位の欠陥候補を検出する欠陥候補検出モデル、又は前記欠陥候補の欠陥を判定する欠陥判定モデルのいずれか一つを用いて実行される。
【0111】
(付記5)コンピュータプログラムは、付記1から付記4のいずれか一つにおいて、検査対象が撮影された入力画像を取得し、画像を入力した場合、前記画像のキャプションを生成する第1言語生成モデルに、取得した入力画像を入力して前記入力画像のキャプションを生成し、テキストを入力した場合、前記テキストに沿った画像を生成する画像生成モデルに、生成したキャプションを入力して前記キャプションに沿った前記検査対象に関する対象画像を生成し、生成した対象画像を取得する、処理をコンピュータに実行させる。
【0112】
(付記6)コンピュータプログラムは、付記5において、検査対象に関するヒアリング内容を取得し、ヒアリング内容を入力した場合、前記ヒアリング内容の要約を生成する第2言語生成モデルに、取得したヒアリング内容を入力して要約を生成し、生成した要約に基づいて、前記第1言語生成モデルが生成したキャプションを修正し、修正したキャプションを前記画像生成モデルに入力して前記対象画像を生成する、処理をコンピュータに実行させる。
【0113】
(付記7)コンピュータプログラムは、付記1から付記6のいずれか一つにおいて、前記対象画像は、検査対象部位毎にセグメント化された分割画像を含む。
【0114】
(付記8)コンピュータプログラムは、付記1から付記7のいずれか一つにおいて、前記タスク生成モデルは、検査対象部位毎にセグメント化された分割画像毎に1又は複数のタスクを生成する。
【0115】
(付記9)コンピュータプログラムは、付記1から付記8のいずれか一つにおいて、前記タスク生成モデルは、GPTを含み、処理の順番が特定された複数のタスクを生成する。
【0116】
(付記10)コンピュータプログラムは、付記1から付記9のいずれか一つにおいて、前記タスク生成モデルは、グラフ表示した複数のタスクを生成する。
【0117】
(付記11)コンピュータプログラムは、付記5において、前記画像生成モデルが生成した対象画像に対する編集操作を受け付け、受け付けた編集操作に応じて前記複数のタスクを変更する、処理をコンピュータに実行させる。
【0118】
(付記12)コンピュータプログラムは、付記1から付記11のいずれか一つにおいて、前記タスク生成モデルが生成する複数のタスクの候補を複数表示し、表示した複数の候補の中から任意の候補の選択を受け付ける、処理をコンピュータに実行させる。
【0119】
(付記13)コンピュータプログラムは、付記1から付記12のいずれか一つにおいて、検査対象に関する画像を入力した場合、検査部位の欠陥を示す欠陥画像を生成する欠陥画像生成モデルに、取得した対象画像を入力して前記対象画像の検査部位の欠陥画像を生成する、処理をコンピュータに実行させる。
【0120】
(付記14)コンピュータプログラムは、付記13において、取得した対象画像のセグメント化された検査部位、検査対象に関するヒアリング内容、及び検査対象に関する検査仕様の少なくとも一つを前記欠陥画像生成モデルに入力して前記欠陥画像を生成する、処理をコンピュータに実行させる。
【0121】
(付記15)コンピュータプログラムは、付記13又は付記14において、前記複数のタスクの一部は、検査部位の欠陥を判定する欠陥判定モデルを用いて実行され、生成した欠陥画像を教師データとして前記欠陥判定モデルを学習又は再学習する、処理をコンピュータに実行させる。
【0122】
(付記16)タスク生成装置は、制御部を備え、前記制御部は、検査対象に関する対象画像を取得し、検査対象の画像を入力した場合、前記検査対象を検査するための複数のタスクを生成するタスク生成モデルに、取得した対象画像を入力して前記対象画像の検査対象を検査するための複数のタスクを生成する。
【0123】
(付記17)タスク生成方法は、検査対象に関する対象画像を取得し、検査対象の画像を入力した場合、前記検査対象を検査するための複数のタスクを生成するタスク生成モデルに、取得した対象画像を入力して前記対象画像の検査対象を検査するための複数のタスクを生成する。
【0124】
各実施形態に記載した事項は相互に組み合わせることが可能である。また、特許請求の範囲に記載した独立請求項及び従属請求項は、引用形式に関わらず全てのあらゆる組み合わせにおいて、相互に組み合わせることが可能である。さらに、特許請求の範囲には他の2以上のクレームを引用するクレームを記載する形式(マルチクレーム形式)を用いているが、これに限るものではない。マルチクレームを少なくとも一つ引用するマルチクレーム(マルチマルチクレーム)を記載する形式を用いて記載してもよい。
【符号の説明】
【0125】
10 制御部
11 通信部
12 メモリ
13 表示部
14 操作部
15 記憶部
16 コンピュータプログラム
20 処理部
21 分割領域検出機能
22 統合機能
23 評価機能
30 学習モデル部
40 第1言語生成モデル
41 イメージエンコーダ
42 テキストエンコーダ
50 第2言語生成モデル
51 埋め込み部
52 デコード層
521 Transformer Decoder
53 変換部
60 画像生成モデル
61 テキストエンコーダ
62 拡散モデル
63 イメージデコーダ
64 画像処理部
70 文章生成モデル
71 イメージエンコーダ
72 テキストエンコーダ
80 タスク生成モデル
81 文章タスク生成モデル
90 欠陥画像生成モデル
91 第1欠陥画像生成モデル
92 第2欠陥画像生成モデル