特開2022-189462 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ソリューションズの特許一覧

特開2022-189462ＡＩ品質監視システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9A
9B
10
11
12
13
14
15
16A
16B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022189462

(43)【公開日】2022-12-22

(54)【発明の名称】ＡＩ品質監視システム

(51)【国際特許分類】

G06N 20/00 20190101AFI20221215BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2021098047

(22)【出願日】2021-06-11

(71)【出願人】

【識別番号】000233055

【氏名又は名称】株式会社日立ソリューションズ

(74)【代理人】

【識別番号】110002572

【氏名又は名称】弁理士法人平木国際特許事務所

(72)【発明者】

【氏名】伊藤秀和

(57)【要約】

【課題】入力データに依存することなくかつ効率的に、学習モデルの品質を監視することができる技術を提供することを目的とする。
【解決手段】本発明に係るＡＩ品質監視システムは、学習モデルが学習する学習データと同じタイプの入力データに対して比較用モデルが推論を実施することにより得られる推論結果を取得し、前記比較用モデルから取得した推論結果を正解データと比較することにより、前記比較用モデルが前記学習モデルの品質を判定するために用いるのに適している程度を表す評価値を計算する。
【選択図】図１

【特許請求の範囲】

【請求項1】

ＡＩが備えている学習モデルの品質を監視するシステムであって、
前記学習モデルの品質を判定するために用いる比較用モデルを選定する比較用モデル選定部、
前記学習モデルによる推論結果と前記比較用モデル選定部が選定した前記比較用モデルによる推論結果を比較することにより前記学習モデルの品質を判定する品質判定部、
前記品質判定部による判定結果を出力する出力部、
を備え、
前記比較用モデル選定部は、前記学習モデルが学習する学習データと同じタイプの入力データに対して前記比較用モデルが推論を実施することにより得られる推論結果を、１以上の前記比較用モデルについてそれぞれ取得し、
前記比較用モデル選定部は、前記比較用モデルから取得した推論結果を正解データと比較することにより、前記比較用モデルが前記学習モデルの品質を判定するために用いるのに適している程度を表す評価値を、各前記比較用モデルそれぞれについて計算し、
前記比較用モデル選定部は、前記評価値にしたがって、１以上の前記比較用モデルを選定する
ことを特徴とするＡＩ品質監視システム。

【請求項2】

前記比較用モデル選定部は、前記比較用モデルによる推論結果と前記正解データとを比較することにより混同行列を作成するとともに、前記混同行列のＦ値または精度または適合率または再現率または前記比較用モデルが推論を実施するために要した時間のうち少なくともいずれかを、前記評価値として計算する
ことを特徴とする請求項１記載のＡＩ品質監視システム。

【請求項3】

前記比較用モデル選定部は、１以上の前記比較用モデルの組み合わせを生成するとともに、前記組み合わせを構成する前記比較用モデルごとに前記評価値を計算し、
前記比較用モデル選定部は、前記評価値の統計量が最も高い前記組み合わせを構成する前記比較用モデルを、前記学習モデルの品質を判定するために用いるのに最も適しているものとして選定する
ことを特徴とする請求項１記載のＡＩ品質監視システム。

【請求項4】

前記ＡＩ品質監視システムはさらに、前記比較用モデル選定部が前記比較用モデルを選定する際に用いるパラメータをユーザが指定するために用いるインターフェースを備え、
前記インターフェースは、前記パラメータとして、
前記学習モデルを識別する情報、
前記比較用モデルを識別する情報、
前記入力データのタイプを指定する情報、
前記学習モデルが出力する推論結果のデータタイプ、
前記比較用モデルを用いて推論を実施する処理の手順、
前記比較用モデルによる推論結果と前記正解データを比較する手順、
前記評価値を計算する手順、
のうち少なくともいずれかを指定する指定入力を前記ユーザから受け取り、
前記比較用モデル選定部は、前記インターフェースが受け取った前記指定入力が指定する前記パラメータを用いて、前記比較用モデルを選定する
ことを特徴とする請求項１記載のＡＩ品質監視システム。

【請求項5】

前記ＡＩ品質監視システムはさらに、前記比較用モデル選定部が前記比較用モデルを選定した結果を提示するインターフェースを備え、
前記インターフェースは、
前記比較用モデル選定部が選定した前記比較用モデルを識別する情報、
前記評価値、
前記比較用モデルによる推論結果と前記正解データを比較した結果、
のうち少なくともいずれかを提示する
ことを特徴とする請求項１記載のＡＩ品質監視システム。

【請求項6】

前記ＡＩ品質監視システムはさらに、前記学習モデルに対して入力することにより前記学習モデルに推論を実施させる対象データを収集するデータ収集部を備え、
前記品質判定部は、前記対象データに対して前記学習モデルが推論を実施することにより得られる推論結果と、前記対象データに対して前記比較用モデルが推論を実施することにより得られる推論結果とを比較することにより、前記学習モデルの品質を判定する
ことを特徴とする請求項１記載のＡＩ品質監視システム。

【請求項7】

前記品質判定部は、前記比較用モデル選定部が選定した前記比較用モデルによる推論結果を相互に比較することにより、正解データを推定し、
前記品質判定部は、前記推定した正解データと前記学習モデルによる推論結果を比較することにより、前記学習モデルの品質を判定する
ことを特徴とする請求項１記載のＡＩ品質監視システム。

【請求項8】

前記ＡＩ品質監視システムはさらに、前記学習モデルによる推論演算を実施する第１演算処理部と、前記比較用モデルによる推論演算を実施する第２演算処理部とを備え、
前記第１演算処理部と前記第２演算処理部は、互いに独立して動作するプロセッサによって構成されている
ことを特徴とする請求項１記載のＡＩ品質監視システム。

【請求項9】

前記比較用モデル選定部と前記品質判定部は、互いに異なるコンピュータ上で実装されるかまたは同じコンピュータ上の互いに異なる演算装置によって実装される
ことを特徴とする請求項１記載のＡＩ品質監視システム。

【請求項10】

前記ＡＩ品質監視システムはさらに、前記品質判定部による判定結果を提示するインターフェースを備え、
前記インターフェースは、
前記学習モデルによる推論結果、
前記比較用モデル選定部が選定した前記比較用モデルによる推論結果、
のうち少なくともいずれかを提示する
ことを特徴とする請求項１記載のＡＩ品質監視システム。

【請求項11】

前記出力部は、前記品質判定部による判定結果を記述したレポートデータをネットワーク経由で出力する
ことを特徴とする請求項１記載のＡＩ品質監視システム。

【請求項12】

対象データのピクセルサイズ、
対象データの色空間、
対象データの色を表現するために用いるビット数、
推論結果として出力する内容、
が一致するものを、前記比較用モデルとして選定する
ことを特徴とする請求項１記載のＡＩ品質監視システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ＡＩが備えている学習モデルの品質を監視する技術に関する。

【背景技術】

【0002】

ＡＩ（人工知能）は、画像認識の分野において近年盛んに用いられている。例えば監視カメラが撮像した画像内に存在する人物を識別するなどの用途において、ＡＩが用いられている。ＡＩの学習モデルは、運用開始前までに学習データを用いて機械学習を実施することによって作成される。

【0003】

学習モデルの品質は、経時的に変化する。学習モデルに対して入力される入力データ自体が経時的に変化し、運用開始時において構築した学習モデルが陳腐化する場合があるからである。したがって、ＡＩを利用するシステムの動作品質を運用開始後も継続的に維持・向上するためには、学習モデルの品質を監視することが重要である。

【0004】

学習モデルの品質を監視するためには、入力データ・中間データ・出力データなどを監視すればよい。ここでは出力データの監視について述べる。出力データを監視する際は、入力データに対して正しい回答が出力されているか否かを監視することになる。学習工程においては入力データと正解データをペアにして学習を進めるが、運用時においては正解データが存在しないので、出力データを監視するために必要な正解データが得られない。したがって運用時においては、出力データの誤りを見つけにくいことが多い。

【0005】

出力データの誤りが見つけにくい場合、従来は、人が都度その出力結果を目視確認するか、あるいは確信度（Ｃｏｎｆｉｄｅｎｃｅ）（出力結果がどのくらい確実であるかの統計的な尺度を表す指標であり、学習モデル内部において計算される）などのパラメータを用いて、出力誤りが発生しているか否かを判断することが多い。

【0006】

下記特許文献１は、『機械学習モデルの妥当性を評価する技術において、テストデータの信頼性に影響されない評価結果を得る。』ことを課題として、『学習モデル評価装置は、ビッグデータから作成された機械学習モデルと、ビッグデータのうちの重要度が相対的に低い一部の変数についてのデータから、機械学習モデルと同じ機械学習手法により作成された比較用モデルと、を取得する取得部と、機械学習モデルの予測精度と、比較用モデルの予測精度とを比較することによって、機械学習モデルの妥当性を評価する評価部と、を備える。』という技術を記載している（要約参照）。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】特開２０２１－００９６１８号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

出力データが正しいか否かを目視確認するには手間が掛かりすぎるので、効率を考慮すると望ましくない。他方で確信度などのパラメータは、利用したＡＩモデルや入力データに依存するので、必ずしも正しくない場合がある。例えば、学習モデルが誤った学習結果を蓄積している場合、確信度はその誤った学習結果を前提として、出力データがどの程度正しいかを表している。したがってその確信度は、出力データが正解であるか否かを適切に表していないことになる。

【0009】

特許文献１においては、ビッグデータのうち重要度が相対的に低い一部から比較用モデルを作成することにより、比較用モデルの予測精度を低く設定した上で、これを用いて学習モデルの妥当性を評価する（同文献の０００９参照）。すなわち同文献において用いられる比較用モデルは、妥当性を評価しようとしている学習モデルとは必ずしも同等のものではない。評価しようとしている学習モデルと同等の比較用モデルをあらかじめ準備することができれば、学習モデルの性能評価をより適切に実施できる可能性がある。

【0010】

本発明は、上記のような課題に鑑みてなされたものであり、入力データに依存することなくかつ効率的に、学習モデルの品質を監視することができる技術を提供することを目的とする。

【課題を解決するための手段】

【0011】

本発明に係るＡＩ品質監視システムは、学習モデルが学習する学習データと同じタイプの入力データに対して比較用モデルが推論を実施することにより得られる推論結果を取得し、前記比較用モデルから取得した推論結果を正解データと比較することにより、前記比較用モデルが前記学習モデルの品質を判定するために用いるのに適している程度を表す評価値を計算する。

【発明の効果】

【0012】

本発明に係るＡＩ品質監視システムによれば、入力データに依存することなくかつ効率的に、学習モデルの品質を監視することができる。本発明のその他の構成、課題、利点などについては、以下の実施形態を参照することにより明らかになる。

【図面の簡単な説明】

【0013】

【図1】ＡＩ品質監視システム１の概念図である。

【図2】ＡＩ品質監視システム１を構成するサブシステムの構成図である。

【図3】正誤判定システム１０の構成図である。

【図4】監視システム２０の構成図である。

【図5】操作端末３０の構成図である。

【図6】ＡＩ品質監視システム１の動作を説明するフローチャートである。

【図7】Ｓ６０１の詳細を説明するフローチャートである。

【図8】Ｓ６０１においてユーザが用いるユーザインターフェースの例である。

【図9A】Ｓ７０４において操作端末３０上で提示するユーザインターフェースの例である。

【図9B】Ｓ７０４において操作端末３０上で提示するユーザインターフェースの例である。

【図10】Ｓ７０２の詳細を説明するフローチャートである。

【図11】Ｓ７０３の詳細を説明するフローチャートである。

【図12】選定結果管理ＤＢ２３１が格納するデータの例である。

【図13】Ｓ６０２の詳細を説明するフローチャートである。

【図14】Ｓ６０３の詳細を説明するフローチャートである。

【図15】Ｓ６０４の詳細を説明するフローチャートである。

【図16A】Ｓ１５０１～Ｓ１５０２において操作端末３０上で提示するユーザインターフェースの例である。

【図16B】Ｓ１５０１～Ｓ１５０２において操作端末３０上で提示するユーザインターフェースの例である。

【発明を実施するための形態】

【0014】

図１は、本発明の実施形態に係るＡＩ品質監視システム１の概念図である。ＡＩ品質監視システム１は、学習モデルの品質を監視するシステムである。ＡＩ品質監視システム１は、学習モデルの品質を監視するために、比較用モデルを用いる。比較用モデルは、学習モデルと同じ形式の入力データを受け取り、同じ内容の出力データを出力する、別の学習モデルである。

【0015】

ＡＩ品質監視システム１は、各比較用モデルが出力した出力データを比較することにより、正解データを推測する。ＡＩ品質監視システム１は、学習モデルが出力した出力データとその正解データを比較することにより、学習モデルからの出力データの正誤を判定する。これにより、学習モデルの品質を監視することができる。学習モデルの出力データについて確信度を得られる場合は、これを補助的に用いて正誤判定を実施してもよい。比較用モデルからの出力データを用いて学習モデルの品質を判定することにより、学習モデルまたは入力データに依存することなく、学習モデルの品質を監視することができる。

【0016】

比較用モデルは、既に構築した別の学習モデルのなかから、監視対象とする学習モデルを評価するのに適したものを、所定の選定基準にしたがって選定する。すなわち、比較用モデルを選定するに際してマニュアル作業に依拠することはないので、学習モデルの品質監視を効率的に実施できる。具体的な選定手順については後述する。

【0017】

学習モデルは、入力データのデータ形式に準じて構築される。例えば画像内の特定の形状を識別する学習モデルであれば、形状そのものに加えて、画像の色空間や画像の色深度などのようなデータ形式固有の識別フィルタなどを実装しているのが通常である。したがって比較用モデルとして適しているのは、学習モデルと同じ入力データ形式を用いるものであるといえる。

【0018】

学習モデルが推論を実施した結果は、その学習モデルが推論する対象に準じた形式で記述される。例えば入力データが犬の画像であるか否かを識別する学習モデルは、入力画像が犬であれば１を出力し、それ以外であれば０を出力する、などのように構築される。このような出力データの内容は、品質評価する学習モデルと比較用モデルとの間で少なくとも部分的に共通していることが望ましい。全く異なる内容を推論または出力する学習モデル同士を比較するのは困難だからである。したがって比較用モデルとして適しているのは、学習モデルと同じ出力データ内容を出力するものであるといえる。

【0019】

図２は、ＡＩ品質監視システム１を構成するサブシステムの構成図である。ＡＩ品質監視システム１は、正誤判定システム１０、監視システム２０、操作端末３０によって構成されている。

【0020】

正誤判定システム１０は、ＡＩを利用するシステム（ＡＩ利用システム）におけるＡＩの学習モデルについて、図１で説明した手法により、その学習モデルの品質を判定する。この判定のことを正誤判定と呼ぶ場合もある。正誤判定システム１０は、監視システム２０内に設けてもよいし、処理負荷に問題なければＡＩ利用システム内に設けてもよい。正誤判定システム１０は典型的には、ＡＩ利用システムが稼働する場所（現場サイト）に設置される。

【0021】

監視システム２０は、各ＡＩ利用システムが利用する学習モデルを１元的に監視する。監視システム２０は、正誤判定システム１０が正誤判定のために用いる比較用モデルを選定する役割も有する。監視システム２０は、典型的には現場サイトから離れたクラウドシステム上などに設置されるが、これに限るものではなく、現場サイト内、後述する監視サイト内、などに配置してもよい。

【0022】

操作端末３０は、監視システム２０が各学習モデルの品質を監視した結果をユーザが閲覧するために用いる。操作端末３０は、典型的には監視システム２０に対してリモートアクセスする監視サイト上に配置されるが、これに限るものではなく、例えば現場サイト内に設けてもよい。

【0023】

ユーザは、学習モデルの品質を評価する処理における様々なパラメータを、操作端末３０上でセットする（（１）各種設定）。その設定は監視システム２０と正誤判定システム１０において登録される（（２）モデル・パラメータ登録）。正誤判定システム１０は、学習モデルと比較用モデルそれぞれに対して入力する入力データを収集する（（３）データ収集）。正誤判定システム１０は、学習モデルによる出力の正誤判定結果を監視システム２０へ送信する（（４）正誤判定結果）。ユーザはその結果を閲覧する（（５）結果閲覧）。以上の手順により、ユーザは学習モデルの品質を監視できる。各ステップの詳細については後述する。

【0024】

図３は、正誤判定システム１０の構成図である。正誤判定システム１０は、中央演算部１１、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）演算部１２、記憶部１３を備える。

【0025】

中央演算部１１は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置とメモリによって構成される。中央演算部１１は、設定処理部１１１、データ収集部１１２、品質判定部１１３、通信部１１４を有する。これら機能部の詳細については後述する。

【0026】

ＧＰＵ演算部１２は、中央演算部１１とは別の演算装置（例えばＧＰＵ）とメモリによって構成される。ＧＰＵ演算部１２はＡＩ処理部１２１を有する。ＡＩ処理部１２１は、学習モデルや比較用モデルを用いた推論処理を実行する。この推論処理は演算負荷が高いことが多いので、本実施形態においては中央演算部１１とは別にＧＰＵを配置し、ＧＰＵがその推論処理を実行することとした。ただし演算負荷が許容するのであれば、ＡＩ処理部１２１は中央演算部１１が備えることとしてもよい。

【0027】

記憶部１３は、データを格納する記憶装置によって構成することができる。記憶部１３は、モデル・パラメータ管理データベース（ＤＢ）１３１、入力データ管理ＤＢ１３２、正誤判定結果管理ＤＢ１３３を格納する。これらのデータベースの詳細については後述する。

【0028】

図４は、監視システム２０の構成図である。監視システム２０は、中央演算部２１、ＧＰＵ演算部２２、記憶部２３を備える。

【0029】

中央演算部２１は、例えばＣＰＵなどの演算装置とメモリによって構成される。中央演算部２１は、設定処理部２１１、監視処理部２１２（比較用モデル選定部）、通信部２１３を有する。これら機能部の詳細については後述する。

【0030】

ＧＰＵ演算部２２は、中央演算部２１とは別の演算装置（例えばＧＰＵ）とメモリによって構成される。ＧＰＵ演算部２２はＡＩ処理部２２１を有する。ＡＩ処理部２２１は、学習モデルや比較用モデルを用いた推論処理を実行する。正誤判定システム１０もＡＩ処理部１２１を有するが、正誤判定システム１０は学習モデルの正誤判定を実施する際にＡＩ処理部１２１を用いるのに対して、監視システム２０は比較用モデルを選定する際にＡＩ処理部２２１を用いるという違いがある。ＡＩ処理部１２１と同様に、ＡＩ処理部２２１は中央演算部２１が備えることとしてもよい。

【0031】

記憶部２３は、データを格納する記憶装置によって構成することができる。記憶部２３は、選定結果管理ＤＢ２３１、監視結果管理ＤＢ２３２を格納する。これらデータベースの詳細については後述する。

【0032】

図５は、操作端末３０の構成図である。操作端末３０は、中央演算部３１を備える。中央演算部３１は、例えばＣＰＵなどの演算装置とメモリによって構成される。中央演算部３１は、設定処理部３１１、監視結果表示部３１２、通信部３１３を有する。これら機能部の詳細については後述する。

【0033】

図６は、ＡＩ品質監視システム１の動作を説明するフローチャートである。各ステップの詳細は後述のフローチャートにおいて別途説明することとし、本フローチャートはＡＩ品質監視システム１の全体的動作を説明する。

【0034】

（図６：ステップＳ６０１）
ユーザは、比較用モデルを選定する処理におけるパラメータを、操作端末３０上で指定する。ユーザインターフェースの例は後述する。操作端末３０は、その指定内容を監視システム２０に対して送信する。監視システム２０は、その指定内容を選定結果管理ＤＢ２３１に格納する。監視システム２０は、指定されたパラメータにしたがって、比較用モデルを選定する。正誤判定システム１０は、監視システム２０が選定した比較用モデルに関する情報をモデル・パラメータ管理ＤＢ１３１に格納する。

【0035】

（図６：ステップＳ６０２）
正誤判定システム１０は、品質を評価しようとしている学習モデルに対して入力する入力データを収集し、入力データ管理ＤＢ１３２に格納する。

【0036】

（図６：ステップＳ６０３）
正誤判定システム１０は、Ｓ６０２において収集した入力データを、学習モデルと比較用モデルそれぞれに対して入力し、その結果として学習モデルから得られる出力データの正誤を判定する。正誤判定システム１０は、正誤判定結果を監視システム２０に対して送信する。

【0037】

（図６：ステップＳ６０４）
監視システム２０は、Ｓ６０３における正誤判定結果を操作端末３０に対して提示する。ユーザは、操作端末３０上で、正誤判定の結果を確認する。

【0038】

（図６：ステップＳ６０５）
ユーザは、必要に応じて、Ｓ６０１やＳ６０２などに戻り、同様の処理を実施する。

【0039】

図７は、Ｓ６０１の詳細を説明するフローチャートである。以下図７の各ステップについて説明する。

【0040】

（図７：ステップＳ７０１）
ユーザは、学習モデル、比較用モデル候補、テストデータ、その他パラメータなどを操作端末３０上で指定する。操作端末３０において、設定処理部３１１は、通信部３１３を介してその指定内容を監視システム２０に対して送信する。監視システム２０において、設定処理部２１１は通信部２１３を介してその指定内容を受け取り、選定結果管理ＤＢ２３１に格納する。

【0041】

（図７：ステップＳ７０１：補足その１）
本ステップにおいてユーザが指定するパラメータとしては、以下のようなものが例示される：（ａ）学習モデルの識別子；（ｂ）比較用モデルの識別子；（ｃ）入力データと正解データのペア；（ｄ）識別対象についての情報、データ形式、などの諸パラメータ。

【0042】

（図７：ステップＳ７０１：補足その２）
ユーザが比較用モデルとして選択するモデルは、例えば以下のようなものが挙げられる：（ａ）学習モデルの過去バージョン；（ｂ）ハイパーパラメータを変えて学習したモデル；（ｃ）学習用データを変えて学習をしたモデル；（ｄ）正誤判定用に学習させたモデル。

【0043】

（図７：ステップＳ７０２）
監視処理部２１２は、Ｓ７０１において指定されたパラメータにしたがって、比較用モデルの候補が学習モデルの品質を評価するために適している程度を評価する。本ステップの詳細は後述する。

【0044】

（図７：ステップＳ７０３）
監視処理部２１２は、Ｓ７０２の結果にしたがって、比較用モデルの候補のなかから比較用モデルとして採用するものを１以上決定する。本ステップの詳細は後述する。

【0045】

（図７：ステップＳ７０４）
監視処理部２１２は、選定した比較用モデルを操作端末３０に対して通知する。ユーザは操作端末３０上でその結果を確認する。再選定が必要であれば、ユーザはＳ７０１に戻って各パラメータを再設定する。再選定が必要なければその旨を監視システム２０に対して通知し、フローチャートはＳ７０５へ進む。

【0046】

（図７：ステップＳ７０５）
設定処理部２１１は、以上のステップによる結果を正誤判定システム１０に対して送信する。正誤判定システム１０において、設定処理部１１１は通信部１１４を介してその処理結果を受け取り、モデル・パラメータ管理ＤＢ１３１に格納する。例えば選定された比較用モデルの識別子などを格納する。

【0047】

図８は、Ｓ６０１においてユーザが用いるユーザインターフェースの例である。ユーザはこのインターフェースを用いて、学習モデル／比較用モデル／選定手順についてのパラメータを入力する。

【0048】

「評価対象設定」欄においては、品質を評価しようとしている学習モデルについての情報を入力する。例えば学習モデルに識別子、入力データの形式、出力データの形式、学習モデルを記録するデータファイル、などである。

【0049】

「比較用モデル設定」欄においては、比較用モデルについての情報を入力する。例えば比較用モデルとして指定するモデルの個数、比較用モデルが推論処理を実施するときの上限処理時間、などである。比較用モデルとして指定するのは、学習モデルと同じ入力データ形式を用い、同じ内容を出力するものにすることが望ましい。そこで例えば比較用モデルのデータファイルを選択して「追加ボタン」を押下したとき、その比較用モデルの入力データ形式と出力内容を学習モデルと比較し、両者が一致しない場合はその旨のアラートメッセージなどを出力してもよい。

【0050】

「モデル選定用設定」欄においては、比較用モデルを選定する手順と評価指標についての情報を入力する。選定手順としては、比較用モデルによる推論結果から算出した正誤判定の正しさ（正解（推測）と正解（真値）の一致度）を評価する手法を用いることが考えられる。加えて、比較用モデルの評価に、学習モデルの推論結果と比較用モデルの推論結果の不一致度（学習モデルの誤りをより多く検出する度合い）の評価を加味してもよい。図８においてはその１例として混同行列を指定した。一致度の評価指標としては、精度、適合率、再現率、Ｆ値、などが考えられる。評価指標が評価閾値以上であれば、その比較用モデルを採用することになる。

【0051】

各入力欄においては、選択可能な選択肢のみを提示するようにしてもよい。例えば学習モデルのデータファイルを選択したとき、その学習モデルの入力データ形式と出力データ形式としてサポートされている選択肢のみを、ドロップダウンリストの選択肢として提示してもよい。

【0052】

図９Ａは、Ｓ７０４において操作端末３０上で提示するユーザインターフェースの例である。Ｓ７０３においては１以上の比較用モデルのペアを候補として選定し、その選定した比較用モデルを本画面上で提示する。このとき、Ｓ７０２における評価結果（比較用モデルペアごとの評価値など）を併せて提示してもよい。ここでは比較用モデルペアごとにＦ値を用いて評価値を計算し、評価値が高いペア順に順位を提示した。

【0053】

図９Ｂは、Ｓ７０４において操作端末３０上で提示するユーザインターフェースの例である。図９Ａにおいて比較用モデルペアごとのその詳細を「詳細を見る」リンクから辿ると、本画面が提示される。比較用モデルペアを構成する比較用モデルごとに、学習モデルによる推論結果と比較用モデルによる推論結果を、入力データとともに提示する。さらに評価指標を計算する際に作成した混同行列を併せて提示してもよい。個々の推論結果について確信度を提示してもよい。

【0054】

図１０は、Ｓ７０２の詳細を説明するフローチャートである。以下図１０の各ステップについて説明する。

【0055】

（図１０：ステップＳ１００１）
監視処理部２１２は、１以上の比較用モデルごとに以下のステップを実施することにより、比較用モデルごとに評価値を計算する。ここでいう評価値は、比較用モデルが学習モデルの品質を評価するのに適している程度を表す指標であり、図８のインターフェースにおいてユーザが指定したものである。

【0056】

（図１０：ステップＳ１００２）
監視処理部２１２は、１つの比較用モデルＸについて、テストデータＹごとにＳ１００３～Ｓ１００４を実施する。

【0057】

（図１０：ステップＳ１００３）
監視処理部２１２は、図８のユーザインターフェースにおいてユーザが指定した学習モデルと比較用モデルそれぞれについて、テストデータＹを入力データとして推論を実施する。テストデータＹについてもユーザが指定した場合は、そのテストデータを用いる。テストデータと正解データは１対になっている。推論処理の実体部分についてはＡＩ処理部２２１に委譲してもよい。

【0058】

（図１０：ステップＳ１００３：補足）
学習モデル（比較用モデルについても同様）を記録したデータは、学習結果を記述したものであり、その学習結果を用いて実施する推論動作については記述していない場合がある。例えばニューラルネットワークであれば、ニューロン間の接続関係を学習結果として記述したものが学習モデルとして構築される。したがって推論動作を実施するためには、その動作を記述した推論処理テンプレートが別途必要になる場合がある。この場合、監視処理部２１２は、学習モデルに対応する推論処理テンプレートを用いて、本ステップを実施する。推論処理テンプレートは、学習モデルごとにあらかじめ準備しておく。推論処理テンプレートの実装形式は例えば、ＡＩフレームワーク、ランタイムライブラリ、サブモジュール、実行形式ファイル、などの組み合わせである。

【0059】

（図１０：ステップＳ１００４）
監視処理部２１２は、学習モデルによる推論結果と比較用モデルによる推論結果を、図８のユーザインターフェースにおいてユーザが指定した選定手法にしたがって正解データＹと比較する。例えば混同行列を作成することにより両者を比較する。ユーザが指定した選定手法に対応する処理テンプレートは、推論処理と同様にあらかじめ準備しておき、これを用いて比較処理を実施する。比較結果は、例えば混同行列の各要素と推論処理時間のリストとして、選定結果管理ＤＢ２３１に格納される。

【0060】

（図１０：ステップＳ１００５）
監視処理部２１２は、図８のユーザインターフェースにおいてユーザが指定した評価指標にしたがって、比較用モデルの評価値を計算する。ユーザが指定した評価指標に対応する処理テンプレートは、推論処理と同様にあらかじめ準備しておき、これを用いて評価処理を実施する。評価結果は比較結果と併せて選定結果管理ＤＢ２３１に格納される。

【0061】

図１１は、Ｓ７０３の詳細を説明するフローチャートである。以下図１１の各ステップについて説明する。

【0062】

（図１１：ステップＳ１１０１）
監視処理部２１２は、１以上の比較用モデルの組み合わせ（比較用モデルペア）ごとにＳ１１０２を実施する。例えば比較用モデルの全組み合わせについてＳ１１０２を実施してもよいし、適当な探索アルゴリズムによって組み合わせの範囲をあらかじめ絞り込んでもよい。

【0063】

（図１１：ステップＳ１１０１：補足）
１つの組み合わせを構成する比較用モデルの個数は、図８のユーザインターフェースにおいてユーザが指定した範囲内（モデルペア数制限）とする。比較用モデルペアは、例えば｛Ａ，Ｂ，Ｃ｝、｛Ａ，Ｂ，Ｄ｝、・・・、｛Ａ，Ｄ，Ｅ，Ｆ｝、・・・などのように構成される。

【0064】

（図１１：ステップＳ１１０２）
監視処理部２１２は、比較用モデルペアのスコアを計算する。ここでいうスコアは、最も単純には、比較用モデルペアを構成する各比較用モデルの評価値の平均などの統計量である。ただしこれに限るものではなく、推論処理時間などのその他パラメータを加味して評価値を計算してもよい。本ステップの結果として、図９Ａ下段に示すように、比較用モデルペアごとにスコアが計算される。スコアが最もよいものを選定結果としてもよいし、全ての比較用モデルペアを選定結果としていったん提示した上でユーザがそのなかからいずれかを選択してもよい。

【0065】

図１２は、選定結果管理ＤＢ２３１が格納するデータの例である。設定処理部２１１はこれらデータからユーザインターフェース上の選択肢などを読み出して操作端末３０に対して提示する。監視処理部２１２は、比較用モデルを選定した結果を選定結果管理ＤＢ２３１へ格納するとともに、その内容を正誤判定システム１０へも通知する。正誤判定システム１０において、モデル・パラメータ管理ＤＢ１３１は、その内容を格納する。図１２最下段のデータがこれに相当する。

【0066】

図１３は、Ｓ６０２の詳細を説明するフローチャートである。以下図１３の各ステップについて説明する。正誤判定システム１０と操作端末３０との間の通信は、監視システム２０を経由してもよいし、正誤判定システム１０と操作端末３０が互いに直接通信してもよい。

【0067】

（図１３：ステップＳ１３０１～Ｓ１３０２）
データ収集部１１２は、品質を評価しようとしている学習モデルが用いる入力データ（学習モデルによる推論結果の正誤判定のために用いるので、正誤判定用データと呼ぶ）を収集し（Ｓ１３０１）、入力データ管理ＤＢ１３２へ一時的に格納する（Ｓ１３０２）。入力データはＡＩ利用システムから収集してもよいし、その他適当なデータソースから収集してもよい。比較用モデルからの「正解データ(推測)」と比較判定するために、学習モデルの出力データ（出力結果や確信度など）も収集してもよい。

【0068】

（図１３：ステップＳ１３０３）
データ収集部１１２は、入力データを収集する過程を操作端末３０に対して通知する。例えば収集することができたデータ件数やデータ量などを通知することができる。ユーザは操作端末３０上でその通知を確認し、収集条件を再設定する必要があるか否かを判定する。再収集する場合はその収集条件をデータ収集部１１２に対して通知し、Ｓ１３０１へ戻る。再収集しない場合はＳ１３０４へ進む。例えば入力データ管理ＤＢ１３２がオーバーフローしそうになっている場合は、収集条件を再設定してもよい。

【0069】

（図１３：ステップＳ１３０４）
データ収集部１１２は、入力データ管理ＤＢ１３２へ一時的に格納した入力データを確定（登録）する。Ｓ１３０２において、一時メモリ上に入力データを格納した場合は、確定した入力データを入力データ管理ＤＢ１３２へコピーする。

【0070】

図１４は、Ｓ６０３の詳細を説明するフローチャートである。Ｓ６０３は、監視システム２０が比較用モデルペアを決定した後、その比較用モデルペアを用いて実施される。以下図１４の各ステップについて説明する。

【0071】

（図１４：ステップＳ１４０１）
品質判定部１１３は、比較用モデルペアを構成する各比較用モデルに対して入力データを投入することにより、推論処理を実施する。推論処理の実体部分についてはＡＩ処理部１２１に委譲してもよい。推論処理テンプレートは、Ｓ１００３と同様にあらかじめ準備しておく。

【0072】

（図１４：ステップＳ１４０２）
品質判定部１１３は、各比較用モデルの推論結果を比較することにより、正解データを推定する。品質判定部１１３は、推定した正解データと、学習モデルによる推論結果とを比較することにより、学習モデルによる推論結果の正誤を判定する。品質判定部１１３は、その判定結果を正誤判定結果管理ＤＢ１３３に格納する。

【0073】

（図１４：ステップＳ１４０３）
品質判定部１１３は、Ｓ１４０２における正誤判定結果と入力データを監視システム２０に対して転送する。監視システム２０はその正誤判定結果を監視結果管理ＤＢ２３２に登録する。図８のユーザインターフェースにおいてユーザが設定したパラメータにしたがって、登録する情報を一部制限してもよい。

【0074】

図１５は、Ｓ６０４の詳細を説明するフローチャートである。以下図１５の各ステップについて説明する。

【0075】

（図１５：ステップＳ１５０１）
ユーザは操作端末３０上で、学習モデルや評価期間などの条件を入力する。設定処理部２１１は、監視結果管理ＤＢ２３２から、その条件に合致する正誤判定結果（監視データ）を取得する。設定処理部２１１は、取得した正誤判定結果を、ユーザが見やすい形式に整形する。例えばグラフ形式、一覧形式、評価値の降順にソート、などの整形をすることが考えられる。

【0076】

（図１５：ステップＳ１５０２）
設定処理部２１１は、整形した正誤判定結果を操作端末３０上で提示する。ユーザはその正誤判定結果を確認し、比較用モデルペアなどを再調整する必要があるか否かを判定する。再調整する場合は図６のフローチャートを再実施する。

【0077】

図１６Ａは、Ｓ１５０１～Ｓ１５０２において操作端末３０上で提示するユーザインターフェースの例である。「対象情報の指定」欄においては、判定結果を確認する対象期間や学習モデルなどを指定する。「正誤判定結果」欄は、指定条件に合致する正誤判定結果を表示する。「データエクスポート」ボタンを押下すると、正誤判定結果を記述したデータを適当なフォーマットの報告データとして出力する。「レポート出力」ボタンを押下すると正誤判定結果を集約して一覧表示などの形式で提示する。いずれのデータもネットワーク経由でユーザが使用するコンピュータ上にダウンロードできるようにしてもよい。

【0078】

図１６Ｂは、Ｓ１５０１～Ｓ１５０２において操作端末３０上で提示するユーザインターフェースの例である。図１６Ａにおいて「詳細を見る」リンクをクリックすると、本画面が表示される。比較用モデルペアを構成する比較用モデルごとに、正誤判定結果や確信度などを提示する。入力データと正解データを併せて提示してもよい。

【0079】

＜本発明の変形例について＞
以上の実施形態において、比較用モデルの候補としては、データ形式のうち少なくとも以下の項目が学習モデルと一致するものを選定することが望ましい：（ａ）入力データのピクセルサイズ（縦横いずれも一致することが望ましい）；（ｂ）入力データの色空間（ＲＧＢ、ＹＵＶなど）；（ｃ）入力データの色深度（１つの色成分を表現するために用いるビット数）；（ｄ）出力データの内容。これらが一致する場合、学習モデルと比較用モデルは、同じタイプの入力データを用い、かつ出力データ内容が同じであるといえる。

【0080】

以上の実施形態において、比較用モデルによる推論結果を相互比較することにより正解データを推測することを説明したが（図１参照）、正解データを別途得られるのであればこれを併用してもよい。例えば運用中においてあらかじめ正解データが分かっている入力データが入力される可能性がある。そのような場合は、比較用モデルによる推論結果に代えてまたはこれと併用してその正解データを用いてもよい。例えば両者間の重み付け結果を正解データとみなしてもよい。正解データが与えられる場合と推測する場合いずれにおいても、学習モデルの推論結果を正解データと比較する点は同じである。

【0081】

以上の実施形態において、正誤判定システム１０と監視システム２０と操作端末３０のうちいずれか２以上を統合してもよい。この場合、中央処理部を互いに統合し、あるいはＧＰＵ演算部を互いに統合することになる。

【0082】

以上の実施形態において、各システムが備える機能部は、その機能を実装した回路デバイスなどのハードウェアによって構成することもできるし、その機能を実装したソフトウェアを演算装置が実行することによって構成することもできる。正誤判定システム１０においては、設定処理部１１１、データ収集部１１２、品質判定部１１３、通信部１１４、ＡＩ処理部１２１がこれに相当する。監視システム２０においては、設定処理部２１１、監視処理部２１２、通信部２１３、ＡＩ処理部２２１がこれに相当する。

【符号の説明】

【0083】

１：ＡＩ品質監視システム
１０：正誤判定システム
２０：監視システム
３０：操作端末

【図1】