IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ソリューションズの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-24
(45)【発行日】2024-07-02
(54)【発明の名称】AI品質監視システム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240625BHJP
【FI】
G06N20/00
【請求項の数】 12
(21)【出願番号】P 2021098047
(22)【出願日】2021-06-11
(65)【公開番号】P2022189462
(43)【公開日】2022-12-22
【審査請求日】2023-07-13
(73)【特許権者】
【識別番号】000233055
【氏名又は名称】株式会社日立ソリューションズ
(74)【代理人】
【識別番号】110002572
【氏名又は名称】弁理士法人平木国際特許事務所
(72)【発明者】
【氏名】伊藤 秀和
【審査官】渡辺 一帆
(56)【参考文献】
【文献】国際公開第2021/079485(WO,A1)
【文献】特開2009-140283(JP,A)
【文献】米国特許第10810512(US,B1)
【文献】特許第7235125(JP,B2)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00-20/20
G06N 3/02-3/10
(57)【特許請求の範囲】
【請求項1】
AIが備えている学習モデルの品質を監視するシステムであって、
前記学習モデルの品質を判定するために用いる比較用モデルを選定する比較用モデル選定部、
前記学習モデルによる推論結果と前記比較用モデル選定部が選定した前記比較用モデルによる推論結果を比較することにより前記学習モデルの品質を判定する品質判定部、
前記品質判定部による判定結果を出力する出力部、
を備え、
前記比較用モデル選定部は、前記学習モデルが学習する学習データと同じタイプの入力データに対して前記比較用モデルが推論を実施することにより得られる推論結果を、1以上の前記比較用モデルについてそれぞれ取得し、
前記比較用モデル選定部は、前記比較用モデルから取得した推論結果を正解データと比較することにより、前記比較用モデルが前記学習モデルの品質を判定するために用いるのに適している程度を表す評価値を、各前記比較用モデルそれぞれについて計算し、
前記比較用モデル選定部は、前記評価値にしたがって、1以上の前記比較用モデルを選定する
ことを特徴とするAI品質監視システム。
【請求項2】
前記比較用モデル選定部は、前記比較用モデルによる推論結果と前記正解データとを比較することにより混同行列を作成するとともに、前記混同行列のF値または精度または適合率または再現率または前記比較用モデルが推論を実施するために要した時間のうち少なくともいずれかを、前記評価値として計算する
ことを特徴とする請求項1記載のAI品質監視システム。
【請求項3】
前記比較用モデル選定部は、1以上の前記比較用モデルの組み合わせを生成するとともに、前記組み合わせを構成する前記比較用モデルごとに前記評価値を計算し、
前記比較用モデル選定部は、前記評価値の統計量が最も高い前記組み合わせを構成する前記比較用モデルを、前記学習モデルの品質を判定するために用いるのに最も適しているものとして選定する
ことを特徴とする請求項1記載のAI品質監視システム。
【請求項4】
前記AI品質監視システムはさらに、前記比較用モデル選定部が前記比較用モデルを選定する際に用いるパラメータをユーザが指定するために用いるインターフェースを備え、 前記インターフェースは、前記パラメータとして、
前記学習モデルを識別する情報、
前記比較用モデルを識別する情報、
前記入力データのタイプを指定する情報、
前記学習モデルが出力する推論結果のデータタイプ、
前記比較用モデルを用いて推論を実施する処理の手順、
前記比較用モデルによる推論結果と前記正解データを比較する手順、
前記評価値を計算する手順、
のうち少なくともいずれかを指定する指定入力を前記ユーザから受け取り、
前記比較用モデル選定部は、前記インターフェースが受け取った前記指定入力が指定する前記パラメータを用いて、前記比較用モデルを選定する
ことを特徴とする請求項1記載のAI品質監視システム。
【請求項5】
前記AI品質監視システムはさらに、前記比較用モデル選定部が前記比較用モデルを選定した結果を提示するインターフェースを備え、
前記インターフェースは、
前記比較用モデル選定部が選定した前記比較用モデルを識別する情報、
前記評価値、
前記比較用モデルによる推論結果と前記正解データを比較した結果、
のうち少なくともいずれかを提示する
ことを特徴とする請求項1記載のAI品質監視システム。
【請求項6】
前記AI品質監視システムはさらに、前記学習モデルに対して入力することにより前記学習モデルに推論を実施させる対象データを収集するデータ収集部を備え、
前記品質判定部は、前記対象データに対して前記学習モデルが推論を実施することにより得られる推論結果と、前記対象データに対して前記比較用モデルが推論を実施することにより得られる推論結果とを比較することにより、前記学習モデルの品質を判定する
ことを特徴とする請求項1記載のAI品質監視システム。
【請求項7】
前記品質判定部は、前記比較用モデル選定部が選定した前記比較用モデルによる推論結果を相互に比較することにより、正解データを推定し、
前記品質判定部は、前記推定した正解データと前記学習モデルによる推論結果を比較することにより、前記学習モデルの品質を判定する
ことを特徴とする請求項1記載のAI品質監視システム。
【請求項8】
前記AI品質監視システムはさらに、前記学習モデルによる推論演算を実施する第1演算処理部と、前記比較用モデルによる推論演算を実施する第2演算処理部とを備え、
前記第1演算処理部と前記第2演算処理部は、互いに独立して動作するプロセッサによって構成されている
ことを特徴とする請求項1記載のAI品質監視システム。
【請求項9】
前記比較用モデル選定部と前記品質判定部は、互いに異なるコンピュータ上で実装されるかまたは同じコンピュータ上の互いに異なる演算装置によって実装される
ことを特徴とする請求項1記載のAI品質監視システム。
【請求項10】
前記AI品質監視システムはさらに、前記品質判定部による判定結果を提示するインターフェースを備え、
前記インターフェースは、
前記学習モデルによる推論結果、
前記比較用モデル選定部が選定した前記比較用モデルによる推論結果、
のうち少なくともいずれかを提示する
ことを特徴とする請求項1記載のAI品質監視システム。
【請求項11】
前記出力部は、前記品質判定部による判定結果を記述したレポートデータをネットワーク経由で出力する
ことを特徴とする請求項1記載のAI品質監視システム。
【請求項12】
対象データのピクセルサイズ、
対象データの色空間、
対象データの色を表現するために用いるビット数、
推論結果として出力する内容、
前記学習モデルと一致するものを、前記比較用モデルとして選定する
ことを特徴とする請求項1記載のAI品質監視システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、AIが備えている学習モデルの品質を監視する技術に関する。
【背景技術】
【0002】
AI(人工知能)は、画像認識の分野において近年盛んに用いられている。例えば監視カメラが撮像した画像内に存在する人物を識別するなどの用途において、AIが用いられている。AIの学習モデルは、運用開始前までに学習データを用いて機械学習を実施することによって作成される。
【0003】
学習モデルの品質は、経時的に変化する。学習モデルに対して入力される入力データ自体が経時的に変化し、運用開始時において構築した学習モデルが陳腐化する場合があるからである。したがって、AIを利用するシステムの動作品質を運用開始後も継続的に維持・向上するためには、学習モデルの品質を監視することが重要である。
【0004】
学習モデルの品質を監視するためには、入力データ・中間データ・出力データなどを監視すればよい。ここでは出力データの監視について述べる。出力データを監視する際は、入力データに対して正しい回答が出力されているか否かを監視することになる。学習工程においては入力データと正解データをペアにして学習を進めるが、運用時においては正解データが存在しないので、出力データを監視するために必要な正解データが得られない。したがって運用時においては、出力データの誤りを見つけにくいことが多い。
【0005】
出力データの誤りが見つけにくい場合、従来は、人が都度その出力結果を目視確認するか、あるいは確信度(Confidence)(出力結果がどのくらい確実であるかの統計的な尺度を表す指標であり、学習モデル内部において計算される)などのパラメータを用いて、出力誤りが発生しているか否かを判断することが多い。
【0006】
下記特許文献1は、『機械学習モデルの妥当性を評価する技術において、テストデータの信頼性に影響されない評価結果を得る。』ことを課題として、『学習モデル評価装置は、ビッグデータから作成された機械学習モデルと、ビッグデータのうちの重要度が相対的に低い一部の変数についてのデータから、機械学習モデルと同じ機械学習手法により作成された比較用モデルと、を取得する取得部と、機械学習モデルの予測精度と、比較用モデルの予測精度とを比較することによって、機械学習モデルの妥当性を評価する評価部と、を備える。』という技術を記載している(要約参照)。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2021-009618号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
出力データが正しいか否かを目視確認するには手間が掛かりすぎるので、効率を考慮すると望ましくない。他方で確信度などのパラメータは、利用したAIモデルや入力データに依存するので、必ずしも正しくない場合がある。例えば、学習モデルが誤った学習結果を蓄積している場合、確信度はその誤った学習結果を前提として、出力データがどの程度正しいかを表している。したがってその確信度は、出力データが正解であるか否かを適切に表していないことになる。
【0009】
特許文献1においては、ビッグデータのうち重要度が相対的に低い一部から比較用モデルを作成することにより、比較用モデルの予測精度を低く設定した上で、これを用いて学習モデルの妥当性を評価する(同文献の0009参照)。すなわち同文献において用いられる比較用モデルは、妥当性を評価しようとしている学習モデルとは必ずしも同等のものではない。評価しようとしている学習モデルと同等の比較用モデルをあらかじめ準備することができれば、学習モデルの性能評価をより適切に実施できる可能性がある。
【0010】
本発明は、上記のような課題に鑑みてなされたものであり、入力データに依存することなくかつ効率的に、学習モデルの品質を監視することができる技術を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明に係るAI品質監視システムは、学習モデルが学習する学習データと同じタイプの入力データに対して比較用モデルが推論を実施することにより得られる推論結果を取得し、前記比較用モデルから取得した推論結果を正解データと比較することにより、前記比較用モデルが前記学習モデルの品質を判定するために用いるのに適している程度を表す評価値を計算する。
【発明の効果】
【0012】
本発明に係るAI品質監視システムによれば、入力データに依存することなくかつ効率的に、学習モデルの品質を監視することができる。本発明のその他の構成、課題、利点などについては、以下の実施形態を参照することにより明らかになる。
【図面の簡単な説明】
【0013】
図1】AI品質監視システム1の概念図である。
図2】AI品質監視システム1を構成するサブシステムの構成図である。
図3】正誤判定システム10の構成図である。
図4】監視システム20の構成図である。
図5】操作端末30の構成図である。
図6】AI品質監視システム1の動作を説明するフローチャートである。
図7】S601の詳細を説明するフローチャートである。
図8】S601においてユーザが用いるユーザインターフェースの例である。
図9A】S704において操作端末30上で提示するユーザインターフェースの例である。
図9B】S704において操作端末30上で提示するユーザインターフェースの例である。
図10】S702の詳細を説明するフローチャートである。
図11】S703の詳細を説明するフローチャートである。
図12】選定結果管理DB231が格納するデータの例である。
図13】S602の詳細を説明するフローチャートである。
図14】S603の詳細を説明するフローチャートである。
図15】S604の詳細を説明するフローチャートである。
図16A】S1501~S1502において操作端末30上で提示するユーザインターフェースの例である。
図16B】S1501~S1502において操作端末30上で提示するユーザインターフェースの例である。
【発明を実施するための形態】
【0014】
図1は、本発明の実施形態に係るAI品質監視システム1の概念図である。AI品質監視システム1は、学習モデルの品質を監視するシステムである。AI品質監視システム1は、学習モデルの品質を監視するために、比較用モデルを用いる。比較用モデルは、学習モデルと同じ形式の入力データを受け取り、同じ内容の出力データを出力する、別の学習モデルである。
【0015】
AI品質監視システム1は、各比較用モデルが出力した出力データを比較することにより、正解データを推測する。AI品質監視システム1は、学習モデルが出力した出力データとその正解データを比較することにより、学習モデルからの出力データの正誤を判定する。これにより、学習モデルの品質を監視することができる。学習モデルの出力データについて確信度を得られる場合は、これを補助的に用いて正誤判定を実施してもよい。比較用モデルからの出力データを用いて学習モデルの品質を判定することにより、学習モデルまたは入力データに依存することなく、学習モデルの品質を監視することができる。
【0016】
比較用モデルは、既に構築した別の学習モデルのなかから、監視対象とする学習モデルを評価するのに適したものを、所定の選定基準にしたがって選定する。すなわち、比較用モデルを選定するに際してマニュアル作業に依拠することはないので、学習モデルの品質監視を効率的に実施できる。具体的な選定手順については後述する。
【0017】
学習モデルは、入力データのデータ形式に準じて構築される。例えば画像内の特定の形状を識別する学習モデルであれば、形状そのものに加えて、画像の色空間や画像の色深度などのようなデータ形式固有の識別フィルタなどを実装しているのが通常である。したがって比較用モデルとして適しているのは、学習モデルと同じ入力データ形式を用いるものであるといえる。
【0018】
学習モデルが推論を実施した結果は、その学習モデルが推論する対象に準じた形式で記述される。例えば入力データが犬の画像であるか否かを識別する学習モデルは、入力画像が犬であれば1を出力し、それ以外であれば0を出力する、などのように構築される。このような出力データの内容は、品質評価する学習モデルと比較用モデルとの間で少なくとも部分的に共通していることが望ましい。全く異なる内容を推論または出力する学習モデル同士を比較するのは困難だからである。したがって比較用モデルとして適しているのは、学習モデルと同じ出力データ内容を出力するものであるといえる。
【0019】
図2は、AI品質監視システム1を構成するサブシステムの構成図である。AI品質監視システム1は、正誤判定システム10、監視システム20、操作端末30によって構成されている。
【0020】
正誤判定システム10は、AIを利用するシステム(AI利用システム)におけるAIの学習モデルについて、図1で説明した手法により、その学習モデルの品質を判定する。この判定のことを正誤判定と呼ぶ場合もある。正誤判定システム10は、監視システム20内に設けてもよいし、処理負荷に問題なければAI利用システム内に設けてもよい。正誤判定システム10は典型的には、AI利用システムが稼働する場所(現場サイト)に設置される。
【0021】
監視システム20は、各AI利用システムが利用する学習モデルを1元的に監視する。監視システム20は、正誤判定システム10が正誤判定のために用いる比較用モデルを選定する役割も有する。監視システム20は、典型的には現場サイトから離れたクラウドシステム上などに設置されるが、これに限るものではなく、現場サイト内、後述する監視サイト内、などに配置してもよい。
【0022】
操作端末30は、監視システム20が各学習モデルの品質を監視した結果をユーザが閲覧するために用いる。操作端末30は、典型的には監視システム20に対してリモートアクセスする監視サイト上に配置されるが、これに限るものではなく、例えば現場サイト内に設けてもよい。
【0023】
ユーザは、学習モデルの品質を評価する処理における様々なパラメータを、操作端末30上でセットする((1)各種設定)。その設定は監視システム20と正誤判定システム10において登録される((2)モデル・パラメータ登録)。正誤判定システム10は、学習モデルと比較用モデルそれぞれに対して入力する入力データを収集する((3)データ収集)。正誤判定システム10は、学習モデルによる出力の正誤判定結果を監視システム20へ送信する((4)正誤判定結果)。ユーザはその結果を閲覧する((5)結果閲覧)。以上の手順により、ユーザは学習モデルの品質を監視できる。各ステップの詳細については後述する。
【0024】
図3は、正誤判定システム10の構成図である。正誤判定システム10は、中央演算部11、GPU(Graphics Processing Unit)演算部12、記憶部13を備える。
【0025】
中央演算部11は、例えばCPU(Central Processing Unit)などの演算装置とメモリによって構成される。中央演算部11は、設定処理部111、データ収集部112、品質判定部113、通信部114を有する。これら機能部の詳細については後述する。
【0026】
GPU演算部12は、中央演算部11とは別の演算装置(例えばGPU)とメモリによって構成される。GPU演算部12はAI処理部121を有する。AI処理部121は、学習モデルや比較用モデルを用いた推論処理を実行する。この推論処理は演算負荷が高いことが多いので、本実施形態においては中央演算部11とは別にGPUを配置し、GPUがその推論処理を実行することとした。ただし演算負荷が許容するのであれば、AI処理部121は中央演算部11が備えることとしてもよい。
【0027】
記憶部13は、データを格納する記憶装置によって構成することができる。記憶部13は、モデル・パラメータ管理データベース(DB)131、入力データ管理DB132、正誤判定結果管理DB133を格納する。これらのデータベースの詳細については後述する。
【0028】
図4は、監視システム20の構成図である。監視システム20は、中央演算部21、GPU演算部22、記憶部23を備える。
【0029】
中央演算部21は、例えばCPUなどの演算装置とメモリによって構成される。中央演算部21は、設定処理部211、監視処理部212(比較用モデル選定部)、通信部213を有する。これら機能部の詳細については後述する。
【0030】
GPU演算部22は、中央演算部21とは別の演算装置(例えばGPU)とメモリによって構成される。GPU演算部22はAI処理部221を有する。AI処理部221は、学習モデルや比較用モデルを用いた推論処理を実行する。正誤判定システム10もAI処理部121を有するが、正誤判定システム10は学習モデルの正誤判定を実施する際にAI処理部121を用いるのに対して、監視システム20は比較用モデルを選定する際にAI処理部221を用いるという違いがある。AI処理部121と同様に、AI処理部221は中央演算部21が備えることとしてもよい。
【0031】
記憶部23は、データを格納する記憶装置によって構成することができる。記憶部23は、選定結果管理DB231、監視結果管理DB232を格納する。これらデータベースの詳細については後述する。
【0032】
図5は、操作端末30の構成図である。操作端末30は、中央演算部31を備える。中央演算部31は、例えばCPUなどの演算装置とメモリによって構成される。中央演算部31は、設定処理部311、監視結果表示部312、通信部313を有する。これら機能部の詳細については後述する。
【0033】
図6は、AI品質監視システム1の動作を説明するフローチャートである。各ステップの詳細は後述のフローチャートにおいて別途説明することとし、本フローチャートはAI品質監視システム1の全体的動作を説明する。
【0034】
図6:ステップS601)
ユーザは、比較用モデルを選定する処理におけるパラメータを、操作端末30上で指定する。ユーザインターフェースの例は後述する。操作端末30は、その指定内容を監視システム20に対して送信する。監視システム20は、その指定内容を選定結果管理DB231に格納する。監視システム20は、指定されたパラメータにしたがって、比較用モデルを選定する。正誤判定システム10は、監視システム20が選定した比較用モデルに関する情報をモデル・パラメータ管理DB131に格納する。
【0035】
図6:ステップS602)
正誤判定システム10は、品質を評価しようとしている学習モデルに対して入力する入力データを収集し、入力データ管理DB132に格納する。
【0036】
図6:ステップS603)
正誤判定システム10は、S602において収集した入力データを、学習モデルと比較用モデルそれぞれに対して入力し、その結果として学習モデルから得られる出力データの正誤を判定する。正誤判定システム10は、正誤判定結果を監視システム20に対して送信する。
【0037】
図6:ステップS604)
監視システム20は、S603における正誤判定結果を操作端末30に対して提示する。ユーザは、操作端末30上で、正誤判定の結果を確認する。
【0038】
図6:ステップS605)
ユーザは、必要に応じて、S601やS602などに戻り、同様の処理を実施する。
【0039】
図7は、S601の詳細を説明するフローチャートである。以下図7の各ステップについて説明する。
【0040】
図7:ステップS701)
ユーザは、学習モデル、比較用モデル候補、テストデータ、その他パラメータなどを操作端末30上で指定する。操作端末30において、設定処理部311は、通信部313を介してその指定内容を監視システム20に対して送信する。監視システム20において、設定処理部211は通信部213を介してその指定内容を受け取り、選定結果管理DB231に格納する。
【0041】
図7:ステップS701:補足その1)
本ステップにおいてユーザが指定するパラメータとしては、以下のようなものが例示される:(a)学習モデルの識別子;(b)比較用モデルの識別子;(c)入力データと正解データのペア;(d)識別対象についての情報、データ形式、などの諸パラメータ。
【0042】
図7:ステップS701:補足その2)
ユーザが比較用モデルとして選択するモデルは、例えば以下のようなものが挙げられる:(a)学習モデルの過去バージョン;(b)ハイパーパラメータを変えて学習したモデル;(c)学習用データを変えて学習をしたモデル;(d)正誤判定用に学習させたモデル。
【0043】
図7:ステップS702)
監視処理部212は、S701において指定されたパラメータにしたがって、比較用モデルの候補が学習モデルの品質を評価するために適している程度を評価する。本ステップの詳細は後述する。
【0044】
図7:ステップS703)
監視処理部212は、S702の結果にしたがって、比較用モデルの候補のなかから比較用モデルとして採用するものを1以上決定する。本ステップの詳細は後述する。
【0045】
図7:ステップS704)
監視処理部212は、選定した比較用モデルを操作端末30に対して通知する。ユーザは操作端末30上でその結果を確認する。再選定が必要であれば、ユーザはS701に戻って各パラメータを再設定する。再選定が必要なければその旨を監視システム20に対して通知し、フローチャートはS705へ進む。
【0046】
図7:ステップS705)
設定処理部211は、以上のステップによる結果を正誤判定システム10に対して送信する。正誤判定システム10において、設定処理部111は通信部114を介してその処理結果を受け取り、モデル・パラメータ管理DB131に格納する。例えば選定された比較用モデルの識別子などを格納する。
【0047】
図8は、S601においてユーザが用いるユーザインターフェースの例である。ユーザはこのインターフェースを用いて、学習モデル/比較用モデル/選定手順についてのパラメータを入力する。
【0048】
「評価対象設定」欄においては、品質を評価しようとしている学習モデルについての情報を入力する。例えば学習モデルに識別子、入力データの形式、出力データの形式、学習モデルを記録するデータファイル、などである。
【0049】
「比較用モデル設定」欄においては、比較用モデルについての情報を入力する。例えば比較用モデルとして指定するモデルの個数、比較用モデルが推論処理を実施するときの上限処理時間、などである。比較用モデルとして指定するのは、学習モデルと同じ入力データ形式を用い、同じ内容を出力するものにすることが望ましい。そこで例えば比較用モデルのデータファイルを選択して「追加ボタン」を押下したとき、その比較用モデルの入力データ形式と出力内容を学習モデルと比較し、両者が一致しない場合はその旨のアラートメッセージなどを出力してもよい。
【0050】
「モデル選定用設定」欄においては、比較用モデルを選定する手順と評価指標についての情報を入力する。選定手順としては、比較用モデルによる推論結果から算出した正誤判定の正しさ(正解(推測)と正解(真値)の一致度)を評価する手法を用いることが考えられる。加えて、比較用モデルの評価に、学習モデルの推論結果と比較用モデルの推論結果の不一致度(学習モデルの誤りをより多く検出する度合い)の評価を加味してもよい。図8においてはその1例として混同行列を指定した。一致度の評価指標としては、精度、適合率、再現率、F値、などが考えられる。評価指標が評価閾値以上であれば、その比較用モデルを採用することになる。
【0051】
各入力欄においては、選択可能な選択肢のみを提示するようにしてもよい。例えば学習モデルのデータファイルを選択したとき、その学習モデルの入力データ形式と出力データ形式としてサポートされている選択肢のみを、ドロップダウンリストの選択肢として提示してもよい。
【0052】
図9Aは、S704において操作端末30上で提示するユーザインターフェースの例である。S703においては1以上の比較用モデルのペアを候補として選定し、その選定した比較用モデルを本画面上で提示する。このとき、S702における評価結果(比較用モデルペアごとの評価値など)を併せて提示してもよい。ここでは比較用モデルペアごとにF値を用いて評価値を計算し、評価値が高いペア順に順位を提示した。
【0053】
図9Bは、S704において操作端末30上で提示するユーザインターフェースの例である。図9Aにおいて比較用モデルペアごとのその詳細を「詳細を見る」リンクから辿ると、本画面が提示される。比較用モデルペアを構成する比較用モデルごとに、学習モデルによる推論結果と比較用モデルによる推論結果を、入力データとともに提示する。さらに評価指標を計算する際に作成した混同行列を併せて提示してもよい。個々の推論結果について確信度を提示してもよい。
【0054】
図10は、S702の詳細を説明するフローチャートである。以下図10の各ステップについて説明する。
【0055】
図10:ステップS1001)
監視処理部212は、1以上の比較用モデルごとに以下のステップを実施することにより、比較用モデルごとに評価値を計算する。ここでいう評価値は、比較用モデルが学習モデルの品質を評価するのに適している程度を表す指標であり、図8のインターフェースにおいてユーザが指定したものである。
【0056】
図10:ステップS1002)
監視処理部212は、1つの比較用モデルXについて、テストデータYごとにS1003~S1004を実施する。
【0057】
図10:ステップS1003)
監視処理部212は、図8のユーザインターフェースにおいてユーザが指定した学習モデルと比較用モデルそれぞれについて、テストデータYを入力データとして推論を実施する。テストデータYについてもユーザが指定した場合は、そのテストデータを用いる。テストデータと正解データは1対になっている。推論処理の実体部分についてはAI処理部221に委譲してもよい。
【0058】
図10:ステップS1003:補足)
学習モデル(比較用モデルについても同様)を記録したデータは、学習結果を記述したものであり、その学習結果を用いて実施する推論動作については記述していない場合がある。例えばニューラルネットワークであれば、ニューロン間の接続関係を学習結果として記述したものが学習モデルとして構築される。したがって推論動作を実施するためには、その動作を記述した推論処理テンプレートが別途必要になる場合がある。この場合、監視処理部212は、学習モデルに対応する推論処理テンプレートを用いて、本ステップを実施する。推論処理テンプレートは、学習モデルごとにあらかじめ準備しておく。推論処理テンプレートの実装形式は例えば、AIフレームワーク、ランタイムライブラリ、サブモジュール、実行形式ファイル、などの組み合わせである。
【0059】
図10:ステップS1004)
監視処理部212は、学習モデルによる推論結果と比較用モデルによる推論結果を、図8のユーザインターフェースにおいてユーザが指定した選定手法にしたがって正解データYと比較する。例えば混同行列を作成することにより両者を比較する。ユーザが指定した選定手法に対応する処理テンプレートは、推論処理と同様にあらかじめ準備しておき、これを用いて比較処理を実施する。比較結果は、例えば混同行列の各要素と推論処理時間のリストとして、選定結果管理DB231に格納される。
【0060】
図10:ステップS1005)
監視処理部212は、図8のユーザインターフェースにおいてユーザが指定した評価指標にしたがって、比較用モデルの評価値を計算する。ユーザが指定した評価指標に対応する処理テンプレートは、推論処理と同様にあらかじめ準備しておき、これを用いて評価処理を実施する。評価結果は比較結果と併せて選定結果管理DB231に格納される。
【0061】
図11は、S703の詳細を説明するフローチャートである。以下図11の各ステップについて説明する。
【0062】
図11:ステップS1101)
監視処理部212は、1以上の比較用モデルの組み合わせ(比較用モデルペア)ごとにS1102を実施する。例えば比較用モデルの全組み合わせについてS1102を実施してもよいし、適当な探索アルゴリズムによって組み合わせの範囲をあらかじめ絞り込んでもよい。
【0063】
図11:ステップS1101:補足)
1つの組み合わせを構成する比較用モデルの個数は、図8のユーザインターフェースにおいてユーザが指定した範囲内(モデルペア数制限)とする。比較用モデルペアは、例えば{A,B,C}、{A,B,D}、・・・、{A,D,E,F}、・・・などのように構成される。
【0064】
図11:ステップS1102)
監視処理部212は、比較用モデルペアのスコアを計算する。ここでいうスコアは、最も単純には、比較用モデルペアを構成する各比較用モデルの評価値の平均などの統計量である。ただしこれに限るものではなく、推論処理時間などのその他パラメータを加味して評価値を計算してもよい。本ステップの結果として、図9A下段に示すように、比較用モデルペアごとにスコアが計算される。スコアが最もよいものを選定結果としてもよいし、全ての比較用モデルペアを選定結果としていったん提示した上でユーザがそのなかからいずれかを選択してもよい。
【0065】
図12は、選定結果管理DB231が格納するデータの例である。設定処理部211はこれらデータからユーザインターフェース上の選択肢などを読み出して操作端末30に対して提示する。監視処理部212は、比較用モデルを選定した結果を選定結果管理DB231へ格納するとともに、その内容を正誤判定システム10へも通知する。正誤判定システム10において、モデル・パラメータ管理DB131は、その内容を格納する。図12最下段のデータがこれに相当する。
【0066】
図13は、S602の詳細を説明するフローチャートである。以下図13の各ステップについて説明する。正誤判定システム10と操作端末30との間の通信は、監視システム20を経由してもよいし、正誤判定システム10と操作端末30が互いに直接通信してもよい。
【0067】
図13:ステップS1301~S1302)
データ収集部112は、品質を評価しようとしている学習モデルが用いる入力データ(学習モデルによる推論結果の正誤判定のために用いるので、正誤判定用データと呼ぶ)を収集し(S1301)、入力データ管理DB132へ一時的に格納する(S1302)。入力データはAI利用システムから収集してもよいし、その他適当なデータソースから収集してもよい。比較用モデルからの「正解データ(推測)」と比較判定するために、学習モデルの出力データ(出力結果や確信度など)も収集してもよい。
【0068】
図13:ステップS1303)
データ収集部112は、入力データを収集する過程を操作端末30に対して通知する。例えば収集することができたデータ件数やデータ量などを通知することができる。ユーザは操作端末30上でその通知を確認し、収集条件を再設定する必要があるか否かを判定する。再収集する場合はその収集条件をデータ収集部112に対して通知し、S1301へ戻る。再収集しない場合はS1304へ進む。例えば入力データ管理DB132がオーバーフローしそうになっている場合は、収集条件を再設定してもよい。
【0069】
図13:ステップS1304)
データ収集部112は、入力データ管理DB132へ一時的に格納した入力データを確定(登録)する。S1302において、一時メモリ上に入力データを格納した場合は、確定した入力データを入力データ管理DB132へコピーする。
【0070】
図14は、S603の詳細を説明するフローチャートである。S603は、監視システム20が比較用モデルペアを決定した後、その比較用モデルペアを用いて実施される。以下図14の各ステップについて説明する。
【0071】
図14:ステップS1401)
品質判定部113は、比較用モデルペアを構成する各比較用モデルに対して入力データを投入することにより、推論処理を実施する。推論処理の実体部分についてはAI処理部121に委譲してもよい。推論処理テンプレートは、S1003と同様にあらかじめ準備しておく。
【0072】
図14:ステップS1402)
品質判定部113は、各比較用モデルの推論結果を比較することにより、正解データを推定する。品質判定部113は、推定した正解データと、学習モデルによる推論結果とを比較することにより、学習モデルによる推論結果の正誤を判定する。品質判定部113は、その判定結果を正誤判定結果管理DB133に格納する。
【0073】
図14:ステップS1403)
品質判定部113は、S1402における正誤判定結果と入力データを監視システム20に対して転送する。監視システム20はその正誤判定結果を監視結果管理DB232に登録する。図8のユーザインターフェースにおいてユーザが設定したパラメータにしたがって、登録する情報を一部制限してもよい。
【0074】
図15は、S604の詳細を説明するフローチャートである。以下図15の各ステップについて説明する。
【0075】
図15:ステップS1501)
ユーザは操作端末30上で、学習モデルや評価期間などの条件を入力する。設定処理部211は、監視結果管理DB232から、その条件に合致する正誤判定結果(監視データ)を取得する。設定処理部211は、取得した正誤判定結果を、ユーザが見やすい形式に整形する。例えばグラフ形式、一覧形式、評価値の降順にソート、などの整形をすることが考えられる。
【0076】
図15:ステップS1502)
設定処理部211は、整形した正誤判定結果を操作端末30上で提示する。ユーザはその正誤判定結果を確認し、比較用モデルペアなどを再調整する必要があるか否かを判定する。再調整する場合は図6のフローチャートを再実施する。
【0077】
図16Aは、S1501~S1502において操作端末30上で提示するユーザインターフェースの例である。「対象情報の指定」欄においては、判定結果を確認する対象期間や学習モデルなどを指定する。「正誤判定結果」欄は、指定条件に合致する正誤判定結果を表示する。「データエクスポート」ボタンを押下すると、正誤判定結果を記述したデータを適当なフォーマットの報告データとして出力する。「レポート出力」ボタンを押下すると正誤判定結果を集約して一覧表示などの形式で提示する。いずれのデータもネットワーク経由でユーザが使用するコンピュータ上にダウンロードできるようにしてもよい。
【0078】
図16Bは、S1501~S1502において操作端末30上で提示するユーザインターフェースの例である。図16Aにおいて「詳細を見る」リンクをクリックすると、本画面が表示される。比較用モデルペアを構成する比較用モデルごとに、正誤判定結果や確信度などを提示する。入力データと正解データを併せて提示してもよい。
【0079】
<本発明の変形例について>
以上の実施形態において、比較用モデルの候補としては、データ形式のうち少なくとも以下の項目が学習モデルと一致するものを選定することが望ましい:(a)入力データのピクセルサイズ(縦横いずれも一致することが望ましい);(b)入力データの色空間(RGB、YUVなど);(c)入力データの色深度(1つの色成分を表現するために用いるビット数);(d)出力データの内容。これらが一致する場合、学習モデルと比較用モデルは、同じタイプの入力データを用い、かつ出力データ内容が同じであるといえる。
【0080】
以上の実施形態において、比較用モデルによる推論結果を相互比較することにより正解データを推測することを説明したが(図1参照)、正解データを別途得られるのであればこれを併用してもよい。例えば運用中においてあらかじめ正解データが分かっている入力データが入力される可能性がある。そのような場合は、比較用モデルによる推論結果に代えてまたはこれと併用してその正解データを用いてもよい。例えば両者間の重み付け結果を正解データとみなしてもよい。正解データが与えられる場合と推測する場合いずれにおいても、学習モデルの推論結果を正解データと比較する点は同じである。
【0081】
以上の実施形態において、正誤判定システム10と監視システム20と操作端末30のうちいずれか2以上を統合してもよい。この場合、中央処理部を互いに統合し、あるいはGPU演算部を互いに統合することになる。
【0082】
以上の実施形態において、各システムが備える機能部は、その機能を実装した回路デバイスなどのハードウェアによって構成することもできるし、その機能を実装したソフトウェアを演算装置が実行することによって構成することもできる。正誤判定システム10においては、設定処理部111、データ収集部112、品質判定部113、通信部114、AI処理部121がこれに相当する。監視システム20においては、設定処理部211、監視処理部212、通信部213、AI処理部221がこれに相当する。
【符号の説明】
【0083】
1:AI品質監視システム
10:正誤判定システム
20:監視システム
30:操作端末
図1
図2
図3
図4
図5
図6
図7
図8
図9A
図9B
図10
図11
図12
図13
図14
図15
図16A
図16B