(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024090414
(43)【公開日】2024-07-04
(54)【発明の名称】機械学習システム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240627BHJP
G06T 7/11 20170101ALI20240627BHJP
【FI】
G06T7/00 350B
G06T7/00 350C
G06T7/11
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2022206316
(22)【出願日】2022-12-23
(71)【出願人】
【識別番号】501387839
【氏名又は名称】株式会社日立ハイテク
(74)【代理人】
【識別番号】110000350
【氏名又は名称】ポレール弁理士法人
(72)【発明者】
【氏名】石川 昌義
(72)【発明者】
【氏名】佐々木 剛志
(72)【発明者】
【氏名】浅井 大輔
(72)【発明者】
【氏名】安部 雄一
(72)【発明者】
【氏名】嶺川 陽平
(72)【発明者】
【氏名】池田 光二
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA02
5L096FA02
5L096HA11
5L096JA03
5L096KA04
(57)【要約】 (修正有)
【課題】セグメンテーションが代表する認識対象境界付近で信頼性が低下しやすい画像処理に対しても、より顕著な信頼性の低下を判定可能な機械学習システムを提供する。
【解決手段】機械学習モデルの予測結果の信頼性を評価する機械学習システム100であって、入力データ101に対して、所定タスクを実行して予測結果102及び入力データ101から画像特徴量を抽出して、特徴抽出結果202を生成する機械学習モデル201と、特徴抽出結果202を、当該入力データ101における前記画像特徴量の類似性に基づいて、複数の区分領域に区分して、生成ラベル103を生成するラベル生成部203と、予測結果102と生成ラベル103の重なり度合いに基づいて、機械学習モデル201の評価を行う判定部204を有する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
機械学習モデルの予測結果の信頼性を評価する機械学習システムであって、
入力データに対して、所定タスクを実行して予測結果および前記入力データから画像特徴量を抽出して、特徴抽出結果を生成する機械学習モデルと、
前記特徴抽出結果を、当該入力データにおける前記画像特徴量の類似性に基づいて、複数の区分領域に区分して、生成ラベルを生成するラベル生成部と、
前記予測結果と前記生成ラベルの重なり度合いに基づいて、前記機械学習モデルの評価を行う判定部を有する機械学習システム。
【請求項2】
請求項1に記載の機械学習システムにおいて、
前記判定部は、前記重なり度合いが低い領域を判定する機械学習システム。
【請求項3】
請求項2に記載の機械学習システムにおいて、
前記ラベル生成部は、
前記特徴抽出結果を、複数の分割領域に分割する分割部と、
前記画像特徴量を用いて、前記分割領域の特徴を示す領域特徴量を計算し、当該領域特徴量を用いて、前記複数の分割領域それぞれの類似度を評価する類似度評価部と、
前記類似度に基づいて、類似する分割領域を統合して、前記区分領域を生成する統合部を有する機械学習システム。
【請求項4】
請求項3に記載の機械学習システムにおいて、
前記類似度評価部は、近接する分割領域同士の類似度を評価する機械学習システム。
【請求項5】
請求項4に記載の機械学習システムにおいて、
前記統合部は、所定の分割領域に近接する分割領域に類似する分割領域がない場合、前記所定の分割領域を前記区分領域とする機械学習システム。
【請求項6】
請求項3に記載の機械学習システムにおいて、
前記統合部は、所定の制約の範囲で前記分割領域の統合を実行する機械学習システム。
【請求項7】
請求項3に記載の機械学習システムにおいて、
前記分割部は、スーパーピクセルもしくはニューラルネットワークにより前記分割領域に分割する機械学習システム。
【請求項8】
請求項7に記載の機械学習システムにおいて、
前記分割部は、前記ニューラルネットワークにより前記分割領域に分割し、当該ニューラルネットワークは前記入力データを前記画像特徴量に応じて分割するためのパラメータを有し、
前記パラメータは、前記画像特徴量から算出されるコスト行列と分割位置から算出されるコスト行列から計算される前記分割領域への分割結果を利用して更新される機械学習システム。
【請求項9】
請求項2に記載の機械学習システムにおいて、
さらに、前記重なり度合いが低いと判定された領域を、操作者に提示する教示部をさらに有する機械学習システム。
【請求項10】
請求項9に記載の機械学習システムにおいて、
さらに、前記重なり度合いが低いと判定された領域に対して操作者が入力した教示情報を用いて、前記機械学習モデルを更新する学習部を有する機械学習システム。
【請求項11】
請求項10に記載の機械学習システムにおいて、
前記学習部は、前記重なり度合いが低いと判定された領域に応じて前記機械学習モデルの更新の要否を判定する機械学習システム。
【請求項12】
請求項10に記載の機械学習システムにおいて、
前記機械学習モデルは、前記重なり度合いが低いと判定された領域に応じて、当該機械学習モデルの運用の際の信頼性評価を行う機械学習システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、いわゆる機械学習に関する。
【背景技術】
【0002】
現在、様々な分野で、機械学習モデルを利用した機械学習が利用されている。機械学習においては、機械学習モデルの学習、管理、運用を支援するために、機械学習モデルの予測結果の信頼性を評価することが重要である。例えば、特許文献1では、機械学習モデルの精度を監視することを課題とし、機械学習モデルの出力を異なるモデルの出力と比較することで精度劣化を検出することが記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1では、機械学習モデルの出力と精度劣化を検出するためのモデルの出力とを比較し、合致しない場合に精度劣化として検出する方法が記載されている。しかしながら、特にセグメンテーション等の画像処理に適用する場合は、機械学習モデルの出力が不安定になりやすい認識対象の境界付近の領域を多く検出してしまう。そのため精度劣化の検出感度の調整が難しい。また、認識対象の境界付近に検出が発生しやすいため、誤検出を抑えるために検出感度を低くすると認識対象の中心部分の誤認識を見逃してしまう。そこで、本発明では、セグメンテーションのような画像分類より高度なタスクにおいて、認識対象境界付近で信頼性低下の影響を軽減し、より顕著な信頼性の低い領域を判定することを目的とする。
【課題を解決するための手段】
【0005】
前述の課題を解決するための本発明の構成は、機械学習モデルの予測結果の信頼性を評価する機械学習システムであって、入力データに対して、所定タスクを実行して予測結果および前記入力データから画像特徴量を抽出して、特徴抽出結果を生成する機械学習モデルと、前記特徴抽出結果を、当該入力データにおける前記画像特徴量の類似性に基づいて、複数の区分領域に区分して、生成ラベルを生成するラベル生成部と、前記予測結果と前記生成ラベルの重なり度合いに基づいて、前記機械学習モデルの評価を行う判定部を有する機械学習システムである。
【発明の効果】
【0006】
本発明によれば、セグメンテーション等の高度な画像処理などのタスクを実行する機械学習モデルであっても安定した信頼性の評価が可能となる。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0007】
【
図1】本発明の一実施形態における機械学習システム100を用いた機械学習モデルの評価の概要を説明するための図である。
【
図2】実施例1における機械学習システム100の機能ブロック図である。
【
図3】実施例1における処理フローを示すフローチャートである。
【
図4】実施例1におけるラベル生成部203の機能ブロック図である。
【
図5】実施例1におけるラベル生成部203での処理を模式的に示す図である。
【
図6】実施例1におけるラベル生成部203での処理フローを示すフローチャートである。
【
図7】実施例1における教師なし画像分割において利用するニューラルネットワークの構成図である。
【
図8】実施例2における機械学習システム100の機能ブロック図である。
【
図9】実施例2における教示部803の画面例を示す図である。
【
図10】実施例3における処理フローを示すフローチャートである。
【
図11】実施例5における機械学習システム100の一実装例を示す図である。
【発明を実施するための形態】
【0008】
以下、図面を用いて本発明の一実施形態を説明する。
図1は、本実施形態における機械学習システム100を用いた機械学習モデルの評価の概要を説明するための図である。
図1においては、画像データを対象とする。以下、機械学習システム100の処理の概要を説明する。機械学習システム100は、まず、入力データ101を機械学習モデルに入力し、予測結果102を得る。また、機械学習システム100は、得られた予測結果102を生成ラベル103と比較する。そして、機械学習システム100は、比較した結果を機械学習モデルの評価結果を出力する。例えば、機械学習システム100は、評価結果として、信頼性が低いと判定された領域を判定結果104として出力する。
【0009】
ここで、本実施形態における機械学習モデルは、セグメンテーションのモデルを想定する。このため、本実施形態は、セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションといった種々のセグメンテーションモデルに対して利用可能である。
【0010】
なお、上述の予測結果102は、機械学習モデルに対して入力データ101を入力して得られた予測結果102である。このため、
図1においては、予測結果102を、画像データである入力データ101について、予測されたクラスを異なるテクスチャで示している。なお、このクラスは、図示される犬などの形状を区分する区分領域に対して、クラス番号等が付加された情報である。
【0011】
また、
図1では、予測結果102として、画像データにおける各ピクセルが背景、犬、猫のいずれかのクラスに予測する例を示している。
図1では、犬のクラスに関しては正しく予測できているが猫のクラスに関しては胴体部分を誤って背景のクラスに誤分類してしまっている例を示している。つまり、図中、猫の頭部は斜線のテクスチャで示され、胴体部分は背景と同じく縦破線のテクスチャで示されている。本例では、猫の胴体部分も猫のクラスとして予測すべきである。このため、本実施形態ではこのような誤分類している領域を予測結果の信頼性の低い領域として判定することを目的とする。
【0012】
そこで、この目的を達成するために、本実施形態では生成ラベル103を生成する。生成ラベル103は、画像データである特徴抽出結果202を、複数の区分領域に区分して生成される。なお、区分領域については、特徴抽出結果202を、画像特徴量に基づき、複数の分割領域に分割し、これらを統合して当該区分領域を生成できる。この結果、特徴抽出結果202は、区分領域で区分される。つまり、本実施形態では、分割領域に基づき、区分領域に特定する。そして、区分領域の特定には、分割領域の統合やその流用が含まれる。さらに、生成ラベル103の生成は、予測結果102の生成とは別方式であればよく、上述の方法に限定されない。
【0013】
このように生成された生成ラベル103における区分領域は、同じ予測クラスに属すると想定されるものである。
図1では、同じ区分領域中の画像座標を同じテクスチャ(上述の斜線や縦破線)で示している。なお、分割領域や区分領域は、ピクセルなどの単位領域を少なくとも1つを含む領域であることが望ましい。
【0014】
本実施形態の機械学習システム100は、予測結果102と生成ラベル103を比較し、予測結果102を予測するための機械学習モデルの評価を行う。より具体的には、機械学習システム100は、予測結果102と生成ラベル103の分割結果が一致しない領域を判定結果104として出力する。すなわち、機械学習システム100は、予測結果102と生成ラベル103で異なるテクスチャに属する領域を判定結果104の斜線で示したように判定結果104として出力する。このように処理することで、画像データにおける認識対象境界付近において低下する機械学習モデルの信頼性の影響を低減し、より信頼性の低い確認すべき領域を特定しやすくすることが可能となる。なお、本実施形態では、画像データを対象とするが、本発明は他のデータに対して適用してもよい。以下、本実施形態のより具体的な態様を示す各実施例について説明する。
【実施例0015】
まず、
図2は、実施例1における機械学習システム100の機能ブロック図である。
図2において、機械学習システム100は、機械学習モデル201、ラベル生成部203、判定部204によって構成される。ここで、機械学習モデル201は、入力データ101に対して学習結果に応じた予測処理を行い、予測結果102を出力する。また、機械学習モデル201は、入力データ101から特徴量、つまり、特徴抽出結果202を抽出する。なお、本実施例では、特徴抽出結果202として、画像特徴量を用いる。このように、機械学習モデル201は、学習を行い、所定タスクを実行する処理部として機能する。
【0016】
また、ラベル生成部203は、特徴抽出結果202から生成ラベル103を生成する。そして、判定部204は、予測結果102および生成ラベル103を比較し、分割が一致しない領域を判定する。より具体的には、判定部204は、分割が一致しない領域を判定結果104とし、これを出力する。なお、機械学習システム100は、入力データ101や利用者の操作を受け付ける入力部や判定結果104を外部に出力する出力部をさらに有することが望ましい。
【0017】
次に、実施例1における処理フローについて説明する。
図3は、実施例1における処理フローを示すフローチャートである。
【0018】
まず、ステップS301にて、機械学習モデル201は、画像データである入力データ101に対して、特徴量抽出処理および予測処理を実行する。このために、まず、機械学習モデル201は、入力データ101を受け付ける。また、機械学習モデル201は、受け付けた入力データ101から画像特徴量である特徴抽出結果202を抽出する。また、機械学習モデル201は、受け付けた入力データ101に対する予測処理を施し、予測結果102を予測する。
【0019】
ここで、特徴抽出結果202は、機械学習モデル201が予測結果102を出力するために抽出する画像特徴量を示す。つまり、機械学習モデル201は、画像データである入力データ101の各画像座標における画像特徴量を抽出する。例えば、機械学習モデル201がニューラルネットワークである場合は、機械学習モデル201は、中間層で得られる3次のテンソルである特徴量マップを利用して、特徴抽出結果202を抽出する。この際、特徴量マップとして、単一の中間層の出力を利用してもよいし、複数の中間層の出力を組み合わせて利用してもよい。また、予測結果102は、入力データ101に対して、オブジェクト等のクラスの切り出し結果といったタスクを実行した結果を示す情報である。なお、本実施例での画像座標には、画像データにおける座標との狭義の画像座標の他、その他の位置情報やピクセル等の単位領域が含まれる。
【0020】
また、ステップS302では、ラベル生成部203が、特徴抽出結果202から、生成ラベル103を生成する。このために、ラベル生成部203は、特徴抽出結果202における画像特徴量の類似性を用い、特徴抽出結果202から生成ラベル103を生成する。より望ましくは、ラベル生成部203は、特徴抽出結果202を分割領域に分割し、これらを統合して区分領域を生成することで、生成ラベル103を生成する。なお、この生成処理の詳細については、
図4~
図6を用いて、後述する。
【0021】
また、ステップS303では、判定部204が、機械学習モデル201の評価のために、予測結果102のうち信頼性の低い領域を判定する。このために、判定部204は、予測結果102および生成ラベル103を比較し、異なる区分領域となる領域を判定する。ここで、「異なる区分領域となる領域」とは、
図1の判定結果104の斜線部分(猫の頭部)が該当する。このようにして、判定部204は、判定結果104を特定する。そして、判定部204は、この判定結果104を出力することが望ましい。
【0022】
ここで、生成ラベル103で示される区分領域はクラス情報を持たず、各画像座標がいずれの区分領域に属するかのみの情報を有する。このため、例えばクラス番号のような値で単純に比較することができない。なお、信頼性の低い領域とは、重なり度合いが低い領域である。そして、これらにおける「低い」とは、予め定めた閾値以下であることや各領域において相対的に低い(下位何件など)で判断できる。
【0023】
そこで、判定部204は、予測結果102の予測クラスと生成ラベル103の区分領域を領域重複面積が大きくなるようにマッチングを行い、各区分領域が属すべき予測クラスを特定する。そして、判定部204は、各区分領域が属すべき予測クラスと予測結果102が一致しない領域を信頼性が低い領域と判定する。
【0024】
また、領域重複面積の算出はIntersection over unionやDice Similarityと呼ばれる指標を用いて実現できる。このため、判定部204は、予測結果102の各区分領域と生成ラベル103の区分領域の組み合わせ同士の重なり度合いを評価する。この内容を、
図1を参照して説明する。
【0025】
まず、判定部204は、予測結果102の背景、猫、犬とそれぞれ予測されたクラス(もしくはこれに相当する区分領域)と、生成ラベル103における3つの区分領域の重なり度合いを上記の指標で評価する。その後、判定部204は、マッチングによって重なり度合いが大きくなるクラスと区分領域の組み合わせを決定する。すなわち予測結果102と生成ラベル103の背景のクラス・区分領域、犬のクラス・区分領域がそれぞれマッチングによって割り当てられる。また、予測結果102の猫の頭部のクラスは、生成ラベル103の猫全体の区分領域に割当てられる。
【0026】
この結果、判定部204は、各区分領域が属すべき予測クラスを特定する。また、判定部204は、区分領域の組み合わせ毎に、例えば、属する区分領域が一致していない領域やその面積等を評価する。つまり、判定部204は、一致しない面積が閾値以上の場合には、その領域を信頼性の低い領域として判定する。
【0027】
ここではセマンティックセグメンテーションの例を記載した。但し、インスタンスセグメンテーションやパノプティックセグメンテーションの場合は、予測クラスではなくインスタンス番号によってマッチングを行ってもよい。この場合、判定部204は、各区分領域が属すべきインスタンス番号と予測結果102が一致しない領域を、信頼性が低い領域として判定する。
【0028】
また、判定部204は誤判定を低減するために、以下のような変更を行ってもよい。例えば、(1)予測結果102もしくは生成ラベル103の領域境界付近を判定対象から除外、(2)予測結果102において割当てを優先するクラスを指定、といった変更が挙げられる。このような変更によって、機械学習システム100の操作者にとって利用しやすい判定結果104を得られることが可能となる。
【0029】
以上の処理を行うことで、セグメンテーションのように認識対象境界付近で信頼性の低下が発生しやすいタスクにおいて、入力データ101の真値が不明であっても予測結果102の信頼性が低い領域を精度よく判定することが可能となる。なお、この処理においては、ラベル生成部203で行う生成ラベル103を高精度に生成することが重要となる。以上のように、本実施例におけるラベル生成部203は、特徴抽出結果202に基づき入力データ101を、複数の分割領域に分割し、類似する画像特徴量を有する分割領域を統合して区分領域を生成することで生成ラベル103を生成することになる。
【0030】
ここで、このような生成処理を行うラベル生成部203の詳細について説明する。
図4は、実施例1におけるラベル生成部203の機能ブロック図である。
図4において、ラベル生成部203は、分割部401、類似度評価部402および統合部403を有する。ここで、分割部401は、画像データである特徴抽出結果202を分割領域に分割する。また、類似度評価部402は、分割領域の特徴を示す領域特徴量を、画像特徴量を用いて計算し、その類似度を評価する。また、統合部403は、類似度に基づいて、類似する分割領域を統合し、区分領域を生成する。
【0031】
次に、ラベル生成部203の処理フローについて、
図5を参照しながら
図6のフローチャートを用いて説明する。
図5は、実施例1におけるラベル生成部203での処理を模式的に示す図である。また、
図6は、実施例1におけるラベル生成部203での処理フローを示すフローチャートである。
【0032】
まず、
図6のステップS601では、分割部401が、特徴抽出結果202を分割領域に分割し、
図5に示す分割結果501を得る。この分割は、分割結果501で示すように、特徴抽出結果202を、画像座標上で近傍且つ特徴量が類似する画像座標で構成されるよう実行される。
図5の分割結果501は、背景は左側と右側の2つの分割領域に、犬は頭部、胴部、脚部の3つの分割領域に、猫は頭部、胴部の2つの分割領域に分割された例を示す。
【0033】
このために、分割部401は、特徴抽出結果202における各画像座標の画像特徴量、同士を比較する。また、分割部401は、当該比較の結果、互いに近傍する画像座標で構成され、特徴抽出結果202が類似する近傍領域を特定する。そして、分割部401は、特定された近傍領域を分割領域とする。なお、類似とは、画像特徴量の差分が所定範囲内などの所定条件を満たすことを意味する。
【0034】
また、ステップS602では、類似度評価部402が、分割部401で分割された分割領域毎に特徴抽出結果202から領域特徴量を計算し、各分割領域の領域特徴量の類似度を評価する。ここで領域特徴量とは、分割領域に属する画像座標における画像特徴量から算出される値である。例えば、特徴抽出結果202は3次テンソルで表現される特徴量マップである場合は、画像座標毎に異なる特徴量を持つため、各分割領域に属する画像座標における特徴量の平均値や中央値等を利用することができる。そして、類似度評価部402は、分割領域毎に求めた領域特徴量同士の類似度を評価する。この際、類似度評価部402は、近接する分割領域同士の類似度を評価することが望ましい。このために、例えば、類似度評価部402は、領域特徴量同士の類似度を計算する。そして、類似度評価部402は、この類似度が所定範囲であるか、つまり、類似度が計算された分割領域同士が類似しているかを判定する。ここで、類似度とは、二乗誤差やコサイン類似度等の領域特徴量同士の類似性を示す値である。
【0035】
また、ステップS603では、統合部403が、領域特徴量の類似度に基づき、分割領域を統合し、区分領域を生成する。ここで、
図5を参照して、その内容を説明する。
図5において、分割結果501の各テクスチャにより、分割領域毎の領域特徴量を示す。ここで、入力データ101において同じクラスもしくはインスタンスに属する画像座標は類似度の特徴量を持つ。そのため、統合部403は、領域特徴量が類似する分割領域を統合することで、同一の予測値を持つべき区分領域を含む生成ラベル103を生成することが可能となる。なお、本ステップでは、近接する分割領域に類似するものがない場合、対象の分割領域はそのまま区分領域となる。
【0036】
また更に、ステップS603では、統合部403が、所定の制約の範囲で分割領域の統合を実行してもよい。制約としては、予め記憶された統合回数、区分領域の数、その面積などを用いることができる。統合回数を用いる場合、その回数以内の統合を行う。区分領域の数は、その数が一定以下にならないように統合する。さらに、区分領域の面積は、最大の区分領域の面積が所定の大きさ以内にならないように統合する。
【0037】
以上の処理により、ラベル生成部203は、画像特徴量が類似する画像座標で構成される複数の区分領域を含む生成ラベル103を生成することになる。これにより認識対象の境界付近の影響を低減し、予測結果において大きく信頼性が低下している分割領域を特定することが可能となる。なお、類似とは、画像特徴量の差分が所定範囲内などの所定条件を満たすことを意味する。
【0038】
なお、ステップS602では、ステップS601と同様の手法で、類似を判定してもよい。さらに、ステップS601において、ステップS602と同様の手法で類似を判定してもよい。このように、本処理フローでは、特徴抽出結果202から画像特徴の類似性に基づいて、ラベル生成部203が、生成ラベル103を生成することになる。
【0039】
また、本実施例では分割部401が、分割領域に分割し、特徴量が類似する分割領域同士を統合する方法について記載した。但し、類似度評価部402、統合部403そのものないしその処理を省略して、分割部401の処理結果を生成ラベル103としてもよい。つまり、分割部401の分割領域を区分領域として用いることも可能である。
【0040】
また、ラベル生成部203が生成する生成ラベル103における分割の粒度が予測結果102と同程度となるように統合部403において予測結果102を利用してもよい。その場合は統合部403によって生成ラベル103において同一の分割領域となるように統合された領域同士を予測結果102の領域との重なり度合いが高くなるように統合処理を行う。
【0041】
また統合部403は統合処理を制御するためのパラメータを用いてもよい。すなわち、統合判定を行うための類似度に対する閾値や、領域同士が隣接しているかによって統合可否を制御する条件分岐、統合後の領域の面積に対する制約を課してもよい。
【0042】
また、これらのパラメータは対象タスクがセマンティックセグメンテーションの場合とインスタンスセグメンテーションの場合とで切り分けてもよい。
【0043】
また、類似度評価部402における類似度評価と統合部403における統合処理を、クラスタリング等の方法によって合わせて実施してもよい。また、分割部401で実施する特徴抽出結果202の分割領域への分割は、例えばスーパーピクセルと呼ばれる画像分割の手法を利用してもよいし、本実施例で記載するニューラルネットワークによる教師なし画像分割の方法を利用してもよい。
【0044】
ここで、
図7は、実施例1における教師なし画像分割において利用するニューラルネットワークの構成図である。本実施例で利用するニューラルネットワークは、入力データ101を特徴抽出層701で画像特徴量を抽出し、各種処理に用いる。つまり、特徴抽出層701の出力は、特徴抽出結果202である。
【0045】
また、ニューラルネットワークの予測層702は、特徴抽出層701で抽出された特徴量を利用することで予測結果102を生成し、出力する。また、ニューラルネットワークの分割情報予測層704は、特徴抽出層701で抽出された特徴量とクエリ703を利用することで埋込ベクトル705と予測分割位置706を生成し、出力する。ここで、クエリ703はニューラルネットワークのパラメータであり、学習によって更新される複数のベクトルである。
【0046】
分割情報予測層704は、クエリ703を特徴抽出層で抽出された画像特徴量を用いて更新することで埋込ベクトル705および予測分割位置706を生成し、出力する。ここで、埋込ベクトル705および予測分割位置706は、ニューラルネットワークが持つクエリと同数出力される。また、分割情報予測層704は、例えば注意機構と呼ばれる構成を持ち、複数持つクエリ毎に特徴抽出層701で得られる特徴量マップ上において注目する領域を動的に決定し情報を集約することで、領域の分割に必要な特徴量を求める。
【0047】
なお、分割部401で分割を行う際は、特徴抽出結果202および埋込ベクトル705を利用して、特徴抽出結果202の各画像座標が類似する埋込ベクトル705を特定し、類似する埋込ベクトル705毎に異なる分割領域として分割を行う。例えば、ニューラルネットワークが3つのクエリを持つ場合には埋込ベクトル705も3つ出力され、特徴抽出結果202の画像座標毎に類似する埋込ベクトル705を求めることで、画像データを最大で3つの分割領域に分割する。
【0048】
また、本実施例では、このような挙動を行うニューラルネットワークによる分割処理をアノテーション不要な教師なし学習によって訓練する。以下、その内容を説明する。これは、疑似的な画像分割を行い、疑似分割領域を生成する。また、生成された疑似分割領域毎に特徴抽出結果202の特徴量が識別可能になるようにニューラルネットワークを訓練することによって達成される。
【0049】
ここで、疑似分割領域の生成には、特徴抽出結果202、埋込ベクトル705、予測分割位置706が利用される。まず、特徴抽出結果202は、単一の特徴量マップM∈R^H×W×C であるとし埋込ベクトル705をE∈R^Q×C、予測分割位置706をP∈R^Qx2で表す。ここで、H、Wは3次テンソルである特徴量マップMの高さ及び幅であり、Qはニューラルネットワークが持つクエリの数である。疑似分割領域は、これらのテンソルから特徴量マップMの各座標を埋込ベクトル705のいずれのベクトルに割当てるかをSinkhornと呼ばれる最適輸送アルゴリズムによって求めることができる。なお、Sinkhornは、輸送コストを小さくする対応を求めるアルゴリズムであり、ここでは特徴量マップMの各座標をQ個ある埋込ベクトル705にそれぞれ割当てた際のコストを小さくするような割当てを求めることで疑似分割領域とする。
【0050】
また、特徴量マップMと埋込ベクトル705の輸送コストC∈R^HW×Qは、特徴量類似度コストC_f∈R^HW×Qおよび分割位置コストC_p∈R^HW×Q の荷重和によって求められる。また、特徴量類似度コストC_f は、特徴量マップMおよび埋込ベクトルEとのコサイン類似度や二乗誤差などによって計算される。また、分割位置コストC_pは、各埋込ベクトルEに対応する予測分割位置Pおよび特徴量マップMの各座標との二乗誤差などの計算によって求められる。
【0051】
ここで求められた輸送コストに対してSinkhornを適用することで、特徴量マップMの各座標を割り当てる埋込ベクトル番号D∈R^H×Wを決定する。すなわち、このことは、D=argmax Sinkhorn(C)で示される。この結果、埋込ベクトル番号Dとして、特徴量マップMの座標毎に割り当てられた埋込ベクトルEの番号が保持されている。
【0052】
このような輸送コストCによれば、特徴量類似度コストC_fによりi番目の埋込ベクトルE_iと類似の画像特徴量を持ち、分割位置コストC_pによりi番目の埋込ベクトルE_iに対応する予測分割位置P_i、近傍の特徴マップM上の画像座標を求めることができる。
【0053】
また、ニューラルネットワークは、特徴量マップMおよび埋込ベクトルEの例えばコサイン類似度によって得られる予測マスクy∈R^H×W×Qに対して、得られた埋込ベクトル番号Dを利用して訓練されることで、入力データの分割方法を学習する。この際、交差エントロピーやマスク類似度損失、輸送コストのいずれか、もしくは組合せを小さくするように訓練されることになる。このような構成により、Sinkhornによって得られた画像分割を用いて教師なしでニューラルネットワークを、画像分割を行うように訓練することが可能となる。
【0054】
また、埋込ベクトル番号Dは、学習対象のニューラルネットワークで行ってもよいし、類似の構造を持つ異なるニューラルネットワークを利用して行ってもよい。これは、例えば学習対象と同一の構造を持つニューラルネットワークのパラメータとして学習対象のニューラルネットワークの重みの指数移動平均を利用する方法がある。
【0055】
以上で説明した内容は一例であり、特徴抽出層701、予測層702、分割情報予測層704の他に層を追加してもよい。また、分割情報予測層704の学習は事前に行ってもよいし、予測層702の学習と並行して実施してもよい。
【0056】
本実施例によれば、分割部401では教師なし画像分割によって最大でクエリ703の数まで特徴抽出結果202を分割領域に分割する。そして、これを類似度評価部402および統合部403によって分割領域に基づいて、区分領域を特定(例えば、分割領域の統合)する。このことで、入力データ101に対して適切な生成ラベル103を取得することが可能になる。
【0057】
また、本実施例ではセグメンテーション処理を行う機械学習モデル201を対象としたが、物体検出処理を行う機械学習モデルに対して利用してもよい。この場合、判定部204は、機械学習モデル201の予測結果102である検出窓と生成ラベル103の分割領域との大きさを比較して実現できる。または、生成ラベル103のそれぞれの分割領域を囲む矩形領域を求めた後に機械学習モデルの出力する検出窓との重なり度合いを評価してもよい。
実施例1では、入力データ101において機械学習モデル201の予測結果102の信頼性が低いと判定された判定結果104を出力する方法について記載した。実施例2では、実施例1で記載した判定方法を、機械学習モデル201の学習に利用する構成について記載する。
本実施例では、教示情報106が付与されていないデータに対して実施例1で記載した信頼性が低い領域の判定を行う。そして、判定結果104を種々の情報とあわせて操作者に対して提示し教示情報106の付与を促すことで、少ない教示情報106の付与でも機械学習モデルの認識性能を向上させる。
また、学習部802は、記憶部801に格納されている学習利用データ105を利用して機械学習モデル201に学習を実行させる。つまり、学習部802は、機械学習モデル201を更新する。この学習は、所定の期間、もしくは機械学習モデル201のパラメータ更新回数が所定の回数、もしくは所定の終了条件を満たすまで実施される。ここで、学習部802は、重なり度合いが低いと判定された領域に対して操作者が入力した教示情報を用いて、当該更新を実行することができる。なお、学習部802は、当該学習の要否、つまり、機械学習モデル201の更新の要否を判定してもよい。この場合、学習部802は、重なり度合いが低いと判定された領域に応じて機械学習モデル201の更新の要否を判定することが望ましい。
その後、機械学習システム100は、自動的に、もしくは操作者による指示によって教示情報106を付与すべき入力データ101の確認を行う。この際、機械学習システム100は、記憶部801に含まれている学習利用データ105から入力データ101を読み込む。そして、機械学習モデル201、ラベル生成部203、判定部204を用いて、判定結果104を生成する。
また、判定結果104が事前に設定された条件を満たす場合には、教示部803に入力データ101および判定結果104を表示する。この結果、操作者に教示作業を促すことが可能となる。ここで事前に設定された条件とは、信頼性が低いと判定された領域の大きさが所定の大きさより大きいか、信頼性が低いと判定された予測クラスが指定された予測クラスに含まれるか、といった条件である。
また、機械学習システム100は、操作者によって教示作業の終了を指示された場合に、教示部803での表示に応じて入力された教示情報106を入力データ101と関連付けて記憶部801に格納する。
このような構成によれば、初めから全ての入力データ101に対して教示情報106を付与せずとも、機械学習モデル201の学習に有効な入力データを効率的に特定し少ない教示情報106の付与で学習を完了させることが可能となる。
また、入力データ101は、記憶部801に格納されている学習利用データ105の中から教示情報106が付与されていないデータを用いてもよいし、入力データと学習利用データ105は別データとしてもよい。
また、教示部803での表示に応じた教示情報106の付与として、非同期で教示すべきデータの探索を行ってもよい。すなわち、操作者が教示部803での表示に応じて教示情報106を付与している間に他の入力データ101に対して教示情報106付与の要否判定を行ってもよい。また、事前に複数の入力データ101に対して教示情報106付与の要否判定を行い、より教示情報106付与の必要性が高いと判定されたデータから順に操作者に提示(表示)してもよい。また、一覧を操作者に提示することで操作者に教示するデータを選択させてもよい。