(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023152844
(43)【公開日】2023-10-17
(54)【発明の名称】情報処理装置、情報処理方法及びコンピュータプログラム
(51)【国際特許分類】
G06N 3/096 20230101AFI20231005BHJP
G06T 7/00 20170101ALI20231005BHJP
G06V 10/70 20220101ALI20231005BHJP
G06T 7/11 20170101ALI20231005BHJP
【FI】
G06N3/096
G06T7/00 350B
G06V10/70
G06T7/11
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023045219
(22)【出願日】2023-03-22
(31)【優先権主張番号】202210338659.2
(32)【優先日】2022-04-01
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ジャン・イン
(72)【発明者】
【氏名】ジョオン・チャオリアン
(72)【発明者】
【氏名】フォン・チョン
(72)【発明者】
【氏名】ワン・ジエ
(72)【発明者】
【氏名】孫 俊
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA02
5L096JA22
5L096KA04
(57)【要約】 (修正有)
【課題】本発明は、情報処理装置、情報処理方法及びコンピュータ可読記録媒体を提供する。
【解決手段】情報処理装置は、訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練することで、予測待ち画像を予測するための訓練済みの第一モデルを取得する第一訓練ユニットを含み、前記訓練済みの第三モデルは第三訓練画像集合を利用して訓練を行うことで得られるものであり、前記第三訓練画像集合は前記訓練済みの第二モデルを利用して正確に予測できない画像を含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
情報処理装置であって、
訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練し、予測待ち画像を予測するための訓練済みの第一モデルを取得する第一訓練ユニットを含み、
前記訓練済みの第三モデルは第三訓練画像集合を利用して訓練を行うことで得られるものであり、
前記第三訓練画像集合は前記訓練済みの第二モデルを利用して正確に予測できない画像を含む、情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練することは、前記第一訓練画像集合を用いて総合損失関数に基づいて前記第一モデルを訓練することを含み、
前記総合損失関数は、
前記第一モデル自身の損失関数;
前記訓練済みの第二モデルと前記第一モデルとの間の予測パフォーマンスの差異としての第一差異;及び
前記訓練済みの第三モデルと前記第一モデルとの間の予測パフォーマンスの差異としての第二差異
と関連付けられる、情報処理装置。
【請求項3】
請求項2に記載の情報処理装置であって、
前記総合損失関数は、第一総合損失関数であって、前記第一総合損失関数は前記第一モデル自身の損失関数及び前記第一差異と関連付けられる、もの;及び、第二総合損失関数であって、前記第二総合損失関数は前記第一モデル自身の損失関数及び前記第二差異と関連付ける、ものを含み、
前記第一訓練ユニットは、
前記第一モデルを訓練する過程で、
前記第一訓練画像集合中の各訓練画像について、前記第一モデルを用いて該訓練画像を所定数の領域に分け、及び
前記所定数の領域のうちの各々について、該領域が困難領域と推定された場合、前記第二総合損失関数を使用し、該領域が困難領域と推定されない場合、前記第一総合損失関数を使用するように構成され、
前記困難領域は前記訓練済みの第二モデルを用いて正確に予測できない領域を含む、情報処理装置。
【請求項4】
請求項3に記載の情報処理装置であって、
前記第一訓練画像集合中の各訓練画像について、困難領域のみにラベルを付ける、情報処理装置。
【請求項5】
請求項1乃至4のうちの任意の一項に記載の情報処理装置であって、
前記第一訓練画像集合は前記第三訓練画像集合と少なくとも一部がオーバーラップしている、情報処理装置。
【請求項6】
請求項1乃至4のうちの任意の一項に記載の情報処理装置であって、
前記第一モデル、前記訓練済みの第二モデル、及び前記訓練済みの第三モデルのうち各々がインスタンスセグメンテーションモデルであり、及び/又は
前記第一モデルの初期構造パラメータは前記訓練済みの第二モデルの構造パラメータと少なくとも一部が同じである、情報処理装置。
【請求項7】
請求項1乃至4のうちの任意の一項に記載の情報処理装置であって、
前記訓練済みの第一モデルは第一クラス集合について前記予測待ち画像を予測でき、
前記訓練済みの第二モデルは第二クラス集合について前記予測待ち画像を予測でき、
前記第二クラス集合は前記第一クラス集合と同じであり、あるいは、前記第二クラス集合は前記第一クラス集合の部分集合である、情報処理装置。
【請求項8】
請求項1乃至4のうちの任意の一項に記載の情報処理装置であって、
前記予測待ち画像はリサイクル可能なものの画像を含み、
前記情報処理装置はさらに分類ユニットを含み、前記分類ユニットは前記訓練済みの第一モデルによる前記予測待ち画像の予測結果に基づいて前記リサイクル可能なものを分類する、装置。
【請求項9】
情報処理方法であって、
訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練し、予測待ち画像を予測するための訓練済みの第一モデルを取得することを含み、
前記訓練済みの第三モデルは第三訓練画像集合を利用して訓練を行うことで得られるものであり、
前記第三訓練画像集合は前記訓練済みの第二モデルを用いて正確に予測できい画像を含む、情報処理方法。
【請求項10】
コンピュータに、請求項9に記載の情報処理方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理の技術分野に関し、特に、情報処理装置、情報処理方法及びコンピュータプログラムに関する。
【背景技術】
【0002】
近年、機械学習が様々な分野で広く適用されている。例えば、機械学習を用いて画像、音声などに対して予測(識別(認識)、分類などを含む)などを行うことができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明の目的は、情報処理装置、情報処理方法及びコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0004】
本発明の1つの側面によれば、情報処理装置が提供され、それは、第一訓練ユニットを含み、該第一訓練ユニットは、訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練し、予測待ち画像を予測するための訓練済みの第一モデルを取得するように構成される。そのうち、前記訓練済みの第三モデルは第三訓練画像集合を利用して訓練を行うことで得られるものであり、前記第三訓練画像集合は前記訓練済みの第二モデルを利用して正確に予測できない画像を含む。
【0005】
本発明のもう1つの側面によれば、情報処理方法が提供され、それは、訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練し、予測待ち画像を予測するための訓練済みの第一モデルを取得することを含み、そのうち、前記訓練済みの第三モデルは第三訓練画像集合を利用して訓練を行うことで得られるものであり、前記第三訓練画像集合は前記訓練済みの第二モデルを利用して正確に予測できない画像を含む。
【0006】
本発明の他の側面によれば、上述の情報処理方法を実現するためのコンピュータプログラムコード及びコンピュータプログラムプロダクト、並びに、上述の情報処理方法を実現するためのコンピュータプログラムコードを記憶しているコンピュータ可読記憶媒体がさらに提供される。
【図面の簡単な説明】
【0007】
【
図1】本発明の実施例における情報処理装置の機能構成例を示す図である。
【
図2】第一モデル、訓練済みの第二モデル及び訓練済みの第三モデルがYolact++モデルである場合に第一モデルを訓練する処理のフローチャートである。
【
図3A】本発明の実施例における例示的な画像を示す図である。
【
図3B】Yolact++モデルの場合における
図3Aに示す例示的な画像の予測結果を示す図である。
【
図4】本発明の実施例における情報処理装置のもう1つの機能構成例を示す図である。
【
図5】本発明の実施例における情報処理方法の例示的なフローチャートである。
【
図6】本発明の実施例に採用されるパソコンの例示的な構成を示す図である。
【発明を実施するための形態】
【0008】
以下、添付した図面を参照しながら、本発明を実施するための好適な実施例を詳細に説明する。なお、以下の実施例は例示に過ぎず、本発明を限定するものではない。
【0009】
まず、
図1を参照して本発明の実施例における情報処理装置100の実装例を説明する。
図1は本発明の実施例における情報処理装置100の機能構成例のブロック図である。
【0010】
図1に示すように、本発明の実施例における情報処理装置100は第一訓練ユニット102を含み得る。
【0011】
第一訓練ユニット102は訓練済みの第二モデル(以下、“基礎モデル”という)及び訓練済みの第三モデル(“困難モデル”という)に基づいて、第一訓練画像集合を利用して第一モデルを訓練することで、予測待ち画像を予測するための訓練済みの第一モデルを取得するように構成されても良い。例えば、訓練済みの第二モデルは基礎訓練サンプル集合を利用して第二モデルを訓練することで得られるものであり得る。
【0012】
訓練済みの第三モデルは第三訓練画像集合を使用して第三モデルを訓練することで得られても良い。例えば、第三訓練画像集合は訓練済みの第二モデルを利用して正確に予測できない画像を含み得る。当業者が理解できるように、“訓練済みの第二モデルを利用して正確に予測できない画像”は次のような画像を含んでも良く、即ち、訓練済みの第二モデルを用いて誤って予測した画像;及び、訓練済みの第二モデルを用いて予測できない画像(例えば、該画像に含まれる対象が訓練済みの第二モデルにより予測され得るクラス(カテゴリ/類別)に属しない)である。以下、“訓練済みの第二モデルを利用して正確に予測できない画像”を“困難画像”と呼んでも良い。また、画像に複数の対象が含まれる場合、該画像における少なくとも1つの対象が訓練済みの第二モデルにより正確に予測され得ないとき、該画像も困難画像と見なされる。
【0013】
上述のように、本発明の実施例における情報処理装置100は複数の教師モデル(即ち、訓練済みの第二モデル及び訓練済みの第三モデル)のガイドの下で、第一モデルを訓練することで、訓練済みの第一モデルが困難画像及び非困難画像(即ち、訓練済みの第二モデルを用いて正確に予測できる画像)の両方について良好な予測精度を有するようにさせることができる。
【0014】
例えば、基礎訓練サンプル集合、第一訓練画像集合及び第三訓練画像集合における各訓練画像は1つ又は複数の対象(例えば、物体、人間、他の動物など)又はその一部(例えば、物体の一部、人間や他の動物の顔など)を含んでも良い。同様に、予測待ち画像も1つ又は複数の対象又はその一部を含んでも良い。
【0015】
例えば、基礎訓練サンプル集合、第一訓練画像集合及び第三訓練画像集合における各訓練画像及び予測待ち画像は同一の種類の対象、例えば、同一の種類の物体、同一の種類の動物などに関しても良い。当業者が理解できるように、同一の種類の対象は異なるクラスの対象を含んでも良い。例えば、対象の種類がボトルである場合、ボトルの形状、サイズ、材料などに基づいて対象のクラスを確定できる。
【0016】
例えば、訓練済みの第二モデルを使用して予測を行う過程で正確に予測されない複数の画像を第三訓練画像集合として使っても良い。
【0017】
例えば、第一訓練画像集合は第三訓練画像集合とオーバーラップしなくても良い。例えば、第一訓練画像集合は訓練済みの第二モデルを用いて予測を行う過程で正確に予測されない複数の画像のうちの一部の画像を含んでも良く、第三訓練画像集合は訓練済みの第二モデルを使用して予測を行う過程で正確に予測されない前記複数の画像のうちの残りの他の画像を含んでも良い。
【0018】
また、例えば、第一訓練画像集合は第三訓練画像集合と少なくとも部分的にオーバーラップしても良い。特に、第一訓練画像集合は第三訓練画像集合と同じであっても良い。
【0019】
一例として、第一訓練画像集合は困難画像及び非困難画像の両方を含み得る。
【0020】
もう1つの例として、第一訓練画像集合は困難画像のみを含んでも良く、これによって、例えば、第一モデルの訓練時間をさらに短縮した場合、訓練済みの第一モデルの困難画像に対しての予測精度をさらに向上させることができる。このような場合、例えば、第一モデルを訓練する過程では困難画像の中の困難領域のみの情報を使用しても良い。該困難領域は訓練済みの第二モデルを使用して正確に予測できない領域を含み得る。
【0021】
例えば、情報処理装置100は、工場ゴミの分類に適用される場合、前の工場で使用されるモデルを基礎モデルとして使用できる。また、例えば、新工場に関する訓練データ集合(又は、元の工場で使用されるモデルを訓練するための訓練データ集合及び新工場に関する訓練データ集合)を利用して、元の工場で使用されるモデルをさらに訓練することで、基礎モデルとしての訓練済みのモデルを得ても良い。また、新工場で基礎モデルを利用してゴミ分類を行う過程で正確に分類されない画像を第三訓練画像集合とし、第三モデルを訓練することで、困難モデルとしての訓練済みの第三モデルを取得しても良い。その後、基礎モデル及び困難モデルに基づいて第一モデルを訓練することで、新工場でゴミ分類を行うための訓練済みの第一モデルを取得しても良い。例えば、第三訓練画像集合における画像のラベル付けは手動で行っても良い。
【0022】
例えば、第一モデル、訓練済みの第二モデル及び訓練済みの第三モデルは同じ類型のモデル、例えば、インスタンスセグメンテーションモデル、例えば、PA-net、Yolact、Yolact++(例えば、Bolya D,Zhou C,Xiao F,et al.Yolact++:Better real-time instance segmentation[J].IEEE transactions on pattern analysis and machine intelligence、2020)であっても良い。もちろん、当業者は実際のニーズに応じて他の適切なモデル、例えば、畳み込みニューラルネットワークモデルを第一モデル、訓練済みの第二モデル及び訓練済みの第三モデルとして選んでも良い。
【0023】
例えば、
図2には第一モデル、訓練済みの第二モデル及び訓練済みの第三モデルがYolact++モデルである場合に第一モデルを訓練する処理のフローチャートが示されている。
図2では、FPN
CSN、FPN
BTN及びFPN
HTNはそれぞれ、第一モデル、訓練済みの第二モデル及び訓練済みの第三モデルを用いて抽出した訓練画像の特徴を表し、Proto
CSN、Proto
BTN及びProto
HTNはそれぞれ、第一モデル、訓練済みの第二モデル及び訓練済みの第三モデルを使用して抽出した訓練画像の、マスク予測結果に関する一部の特徴を表し、Pred
CSN、Pred
BTN及びPred
HTNはそれぞれ、第一モデル、訓練済みの第二モデル及び訓練済みの第三モデルの訓練画像に対しての予測結果を表す。また、Yolact++損失は第一モデル自身の損失関数を表し、第一モデルの訓練画像に対しての予測結果と、真値(真の値)と間の差異を制約するために用いられる。
【0024】
また、
図2では、双方向の矢印“<->”は、教師モデルとしての基礎モデル及び困難モデルが学生モデルとしての第一モデルの訓練をガイドすることを表す。
【0025】
例えば、Yolact++モデルの場合、モデルの、画像に対しての予測結果は、画像中の対象の枠の位置及びサイズ;画像中の対象のクラス;及び、画像中の対象のマスク(mask)を含んでも良い。例えば、
図3Aに示す例示的な画像について、該画像の予測結果は、対象obj1及びobj2の枠(
図3Bに示されている)の位置及びサイズ;対象obj1及びobj2のクラス;及び、対象obj1及びobj2のマスク(
図3Bでは影で示されている部分である)を含んでも良い。
【0026】
一例として、第一モデルの初期構造パラメータは訓練済みの第二モデルの構造パラメータとは異なっても良い。
【0027】
もう1つの例として、第一モデルの初期構造パラメータは訓練済みの第二モデルの構造パラメータと少なくとも部分的に同じであっても良く、これによって、例えば、第一モデルの訓練時間を短縮した場合、訓練済みの第一モデルの、非困難画像に対しての予測精度をさらに向上させることができる。
【0028】
例えば、訓練済みの第一モデルは第一クラス集合について前記予測待ち画像を予測でき、訓練済みの第二モデルは第二クラス集合について予測待ち画像を予測できる。
【0029】
一例として、第二クラス集合は第一クラス集合と同じである。このような場合、訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練することは、第一モデルの初期構造パラメータが訓練済みの第二モデルの構造パラメータと同じになるようにさせた場合、第一訓練画像集合を利用して第一モデルを訓練することを含んでも良い。
【0030】
もう1つの例として、第二クラス集合は第一クラス集合の部分集合であっても良い。このような場合、訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練することは、第一モデルの初期構造パラメータのうちの第二クラス集合に関する構造パラメータが訓練済みの第二モデルの対応する構造パラメータと同じになるようにさせた場合、第一訓練画像集合を利用して第一モデルを訓練することを含んでも良い。
【0031】
例えば、訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練することは、第一訓練画像集合を用いて、総合損失関数に基づいて第一モデルを訓練することを含んでも良い。例えば、総合損失関数は次のようなものと関連付けられても良く、即ち、第一モデル自身の損失関数;訓練済みの第二モデルと第一モデルとの間の予測パフォーマンスの差異としての第一差異;及び、訓練済みの第三モデルと第一モデルとの間の予測パフォーマンスの差異としての第二差異である。例えば、モデルの間の予測パフォーマンスの差異は知識(knowledge)トランスファー損失(例えば、Hinton G,Vinyals O,Dean J.Distilling the knowledge in a neural network[J].arXiv preprint arXiv:1503.02531,2015、2(7))により表され得る。
【0032】
例えば、訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練することは、第一モデルの初期構造パラメータが訓練済みの第二モデルの対応する構造パラメータと少なくとも部分的に同じになるようにさせた場合、第一訓練画像集合を利用して上述の総合損失関数に基づいて第一モデルを訓練することを含む。
【0033】
例えば、総合損失関数は、第一損失関数(第一総合損失関数)であって、該第一損失関数は第一モデル自身の損失関数及び上述の第一差異と関連付けられている、もの;及び、第二損失関数(第一総合損失関数)であって、該第二損失関数は第一モデル自身の損失関数及び上述の第二差異と関連付けられている、ものを含む。
【0034】
第一訓練ユニット102は次のようなことを行うように構成されても良く、即ち、第一モデルを訓練する過程で、第一訓練画像集合における各訓練画像について、第一モデルを用いて該訓練画像を所定数の領域に分割し、所定数の領域のうちの各々について、該領域が困難領域と推定された場合、第二総合損失関数を使用し、該領域が困難領域と推定されない場合、第一総合損失関数を使用することである。第一総合損失関数及び第二総合損失関数についてのこのような適応選択は、教師モデルについての適応選択に相当する。このように教師モデルを適応的に選択する方式で、訓練済みの第一モデルの予測精度をさらに向上させることができる。
【0035】
例えば、困難領域は訓練済みの第二モデルを利用して正確に予測できない領域を含む。各領域について、該領域と、困難領域とラベル付けられた領域のうちの任意の1つとのIoU(Intersection of Union)が所定閾値よりも大きい場合、該領域を困難領域と推定できる。
【0036】
以下、第一モデル、訓練済みの第二モデル及び訓練済みの第三モデルがYolact++モデルである例と併せて情報処理装置100についてさらに説明する。当業者が理解できるように、該例を用いて説明した細部は他のモデルにも適用できる。
【0037】
一例として、Yolact++モデルの例の場合、総合損失関数lossは以下の式(1)で表され得る。
【0038】
【数1】
式(1)では、
(外1)
は第一モデルの予測結果を示し、
(外2)
は訓練済みの第二モデルの予測結果を示し、
(外3)
は訓練済みの第三モデルの予測結果を示し、
(外4)
はラベルの真値を示す。また、
(外5)
は第一モデル自身の損失関数を示し、それは例えば、以下の式(2)で表されても良い。
【0039】
【数2】
式(2)では、L
clsは分類損失を示し、L
bbxはバウンディングボックス回帰損失を示し、L
maskはマスク損失を示し、L
maskiouはmask re-score分岐損失を示す。
【0040】
上述の式(1)において、
(外6)
は訓練済みの第二モデルに関する知識トランスファー損失(第一差異の例)を示し、
(外7)
は訓練済みの第三モデルに関する知識トランスファー損失(第二差異の例)を示す。α(>0)は訓練済みの第二モデルに関する知識トランスファー損失係数であり、第一モデル自身の損失関数と、訓練済みの第二モデルに関する知識トランスファー損失とのバランスをとるために用いられる。実際のニーズに応じてαを設定でき、そのうち、αが大きいほど、訓練済みの第一モデルと訓練済みの第二モデルとの予測パフォーマンスの間の望ましい差異が小さくなる。β(>0)は訓練済みの第三モデルに関する知識トランスファー損失係数であり、第一モデル自身の損失関数と、訓練済みの第三モデルに関する知識トランスファー損失とのバランスをとるために用いられる。実際のニーズに応じてβを設定でき、そのうち、βが大きいほど、訓練済みの第一モデルと訓練済みの第三モデルとの予測パフォーマンスの間の望ましい差異が小さくなる。例えば、
(外8)
及び
(外9)
はそれぞれ以下の式(3)及び式(4)により表すことができる。
【0041】
【0042】
【数4】
上述の式(3)及び式(4)において、CSN
proto、BTN
proto及びHTN
protoはそれぞれ、第一モデルにより得られたプロトタイプマスク(prototype mask)、訓練済みの第二モデルモデルにより得られたプロトタイプマスク、及び訓練済みの第三モデルにより得られたプロトタイプマスクを示し、CSN
mask、BTN
mask及びHTN
maskはそれぞれ、第一モデルにより得られたマスク係数、訓練済みの第二モデルにより得られたマスク係数、及び訓練済みの第三モデルにより得られたマスク係数を示し、CSN
cls、BTN
cls及びHTN
clsはそれぞれ、第一モデルにより得られた分類結果、訓練済みの第二モデルモデルにより得られた分類結果、及び訓練済みの第三モデルにより得られた分類結果を示し、CSN
bbx、BTN
bbx及びHTN
bbxはそれぞれ、第一モデルにより得られた回帰枠予測結果、訓練済みの第二モデルにより得られた回帰枠予測結果、及び訓練済みの第三モデルにより得られた回帰枠予測結果を示す。また、実際のニーズに応じて上述の式(3)及び式(4)における各係数γ1、γ2及びγ3を設定できる。
【0043】
他の例として、Yolact++モデルの例の場合、総合損失関数lossは以下の式(5)により表され得る。
【0044】
【数5】
上述の式(1)に比べて、式(5)には係数Mask
i
HTN及び~Mask
i
HTNが増加している。Mask
i
HTN及び~Mask
i
HTNは第i(iは0よりも大きい自然数である)個目の画像領域anchor
iが困難領域と推定されるかを指示するために用いられる。例えば、第i個目の画像領域anchor
iが困難領域と推定された場合、第一モデルを訓練する過程では、第i個目の画像領域anchor
iについて、Mask
i
HTNは1であっても良く、それ相応に、~Mask
i
HTNは0であって良い。例えば、Mask
i
HTNは次の式(6)により計算できる。
【0045】
【数6】
上述の式(5)では、gtは困難領域とラベル付けられた画像領域を示し、thresholdは所定閾値を示す。
【0046】
例えば、第一損失関数loss1及び第二損失関数loss2はそれぞれ以下の式(7)及び式(8)により表される。
【0047】
【0048】
【数8】
一例として、第一訓練画像集合中の各訓練画像について、すべての領域にラベルを付けることができ、即ち、すべての領域について真値を付ける。
【0049】
もう1つの例として、第一訓練画像集合中の各訓練画像について、困難領域のみについてラベルを付けることができ、即ち、困難領域のみについて真値を付けることで、ラベル付けの作業量を減少させることができる。例えば、手動で困難領域にラベルを付けることができる。
【0050】
例えば、
図4に示すように、情報処理装置100はさらに分類ユニット104を含んでも良い。分類ユニット104は第一訓練ユニット102により得られた訓練済みの第一モデルによる予測待ち画像の予測結果に基づいて、予測待ち画像に含まれる対象を分類できる。
【0051】
例えば、予測待ち画像はリサイクル可能なもの(例えば、ボトル、紙など)の画像を含んでも良い。このような場合、分類ユニット104は訓練済みの第一モデルによる予測待ち画像の予測結果に基づいて、回収したものを分類できる。
【0052】
なお、予測待ち画像はリサイクル可能なものの画像に限定されない。実際上、予測待ち画像は各種の対象(例えば、物体、人間、他の動物など)の画像であっても良い。
【0053】
以上、本発明の実施例における情報処理装置について説明した。上述の情報処理装置の実施例に対応して、本発明では以下の情報処理方法の実施例をさらに提供する。
【0054】
図5は本発明の実施例に係る情報処理方法500のフローチャートである。
図5に示すように、本発明の実施例における情報処理方法はスタートステップS502で開始し、エンドステップS512で終了しても良く、かつモデル訓練ステップS504を含み得る。
【0055】
モデル訓練ステップS504では、訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練することで、予測待ち画像を予測するための訓練済みの第一モデルを取得できる。例えば、上述の情報処理装置100に含まれる第一訓練ユニット102によりモデル訓練ステップS504を実行できる。なお、その具体的な細部については第一訓練ユニット102についての上述の説明を参照できる。
【0056】
訓練済みの第三モデルは第三訓練画像集合を用いて第三モデルを訓練することで得られても良い。例えば、第三訓練画像集合は訓練済みの第二モデルを用いて正確に予測できない画像を含んでも良い。
【0057】
上述のように、本発明の実施例の情報処理装置と同様に、本発明の実施例の情報処理方法500は複数の教師モデル(即ち、訓練済みの第二モデル及び訓練済みの第三モデル)のガイドの下で、第一モデルを訓練することで、訓練済みの第一モデルが困難画像及び非困難画像(即ち、訓練済みの第二モデルを用いて正確に予測できる画像)の両方についてすべて良好な予測精度を有するようにさせることができる。
【0058】
例えば、第一訓練画像集合は第三訓練画像集合とオーバーラップしなくも良い。例えば、第一訓練画像集合は訓練済みの第二モデルを用いて予測を行う過程で正確に予測されない複数の画像のうちの一部の画像を含んでも良く、第三訓練画像集合は訓練済みの第二モデルを用いて予測を行う過程で正確に予測されない前記複数の画像のうちの残りの他の画像を含んでも良い。
【0059】
また、例えば、第一訓練画像集合は第三訓練画像集合と少なくとも一部がオーバーラップしても良い。特に、第一訓練画像集合は第三訓練画像集合と同じであって良い。
【0060】
一例として、第一訓練画像集合は困難画像及び非困難画像の両方を含んでも良い。
【0061】
もう1つの例として、第一訓練画像集合は困難画像のみを含んでも良く、これによって、例えば、第一モデルの訓練時間をさらに短縮した場合、訓練済みの第一モデルによる困難画像の予測精度をさらに向上させることができる。このような場合、例えば、第一モデルを訓練する過程では、困難画像における困難領域のみの情報を使用できる。該困難領域は訓練済みの第二モデルを用いて正確に予測できない領域を含んでも良い。
【0062】
例えば、第一モデルの初期構造パラメータは訓練済みの第二モデルの構造パラメータと少なくとも一部が同じであっても良く、これによって、例えば、第一モデルの訓練時間を短縮した場合、訓練済みの第一モデルによる非困難画像の予測精度をさらに向上させることができる。
【0063】
例えば、訓練済みの第一モデルは第一クラス集合について予測待ち画像を予測でき、訓練済みの第二モデルは第二クラス集合について予測待ち画像を予測できる。
【0064】
一例として、第二クラス集合は第一クラス集合と同じである。このような場合、訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練することは、第一モデルの初期構造パラメータが訓練済みの第二モデルの構造パラメータと同じになるようにさせた場合、第一訓練画像集合を利用して第一モデルを訓練することを含み得る。
【0065】
もう1つの例として、第二クラス集合は第一クラス集合の部分集合である。このような場合、訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練することは、第一モデルの初期構造パラメータのうちの、第二クラス集合に関する構造パラメータが訓練済みの第二モデルの対応する構造パラメータと同じになるようにさせた場合、第一訓練画像集合を利用して第一モデルを訓練することを含んでも良い。
【0066】
例えば、訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練することは、第一訓練画像集合を用いて、総合損失関数に基づいて第一モデルを訓練することを含んでも良い。例えば、総合損失関数は次のようなものと関連付けられても良く、即ち、第一モデル自身の損失関数;訓練済みの第二モデルと第一モデルとの間の予測パフォーマンスの差異としての第一差異;及び、訓練済みの第三モデルと第一モデルとの間の予測パフォーマンスの差異としての第二差異である。
【0067】
例えば、訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練することは、第一モデルの初期構造パラメータが訓練済みの第二モデルの対応する構造パラメータと少なくとも部分的に同じになるようにさせた場合、第一訓練画像集合を用いて上述の総合損失関数に基づいて第一モデルを訓練することを含んでも良い。
【0068】
例えば、総合損失関数は第一損失関数(第一総合損失関数)及び第二損失関数(第二総合損失関数)を含んでも良く、該第一損失関数は第一モデル自身の損失関数及び上述の第一差異と関連付けられ、該第二損失関数は第一モデル自身の損失関数及び上述の第二差異と関連付けられる。
【0069】
例えば、第一モデルを訓練する過程では、第一訓練画像集合中の各訓練画像について、第一モデルを用いて該訓練画像を所定数の領域に分け、所定数の領域のうちの各々について、該領域が困難領域と推定された場合、第二総合損失関数を使用し、該領域が困難領域と推定されない場合、第一総合損失関数を使用する。第一総合損失関数及び第二総合損失関数についてのこのような適応選択は、教師モデルについて適応選択に相当する。このように教師モデルを適応的に選択する方式で、訓練済みの第一モデルの予測精度をさらに向上させることができる。
【0070】
例えば、情報処理方法500はさらに分類ステップ(図示せず)を含んでも良い。分類ステップではモデル訓練ステップS502により得られた訓練済みの第一モデルによる予測待ち画像の予測結果に基づいて、予測待ち画像に含まれる対象を分類できる。
【0071】
例えば、予測待ち画像はリサイクル可能なもの(例えば、ボトル、紙など)の画像を含んでも良い。このような場合、分類ステップでは、訓練済みの第一モデルによる予測待ち画像の予測結果に基づいて、回収したものを分類できる。
【0072】
また、上述の装置における各ユニットはソフトウェア、ファームウェア、ハードウェア又はその組み合わせの方式で構成され得る。なお、構成時に使用できる具体的な手段や方法は当業者に周知であるため、ここではその詳しい説明を省略する。ソフトウェア又はファームウェアにより実現される場合、記憶媒体やネットワークから専用ハードウェア構造を有するコンピュータ(例えば、
図6に示す汎用コンピュータ1000)に該ソフトウェアを構成するプログラムをインストールし、該コンピュータは各種のプログラムがインストールされているときに、各種の機能などを実行できる。
【0073】
また、明らかのように、本発明による方法の各操作のプロセスは各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現され得る。
【0074】
さらに、本発明の目的は次のような方式で実現されても良く、即ち、実行可能なプログラムコードを記憶している記憶媒体をシステム又は装置に直接又は間接的に提供し、該システム又は装置におけるコンピュータ又は中央処理ユニット(CPU)により上述のプログラムコードを読み取って実行する。このときに、該システム又は装置がプログラム実行可能な機能を有すれば、本発明の実施例はプログラムに限定されず、また、該プログラムは任意の形式のもの、例えば、オブジェクト指向プログラム、インタープリター実行のプログラム、OS(オペレーティングシステム)に提供するスクリプトプログラムなどであっても良い。
【0075】
上述のようなマシン可読記憶媒体は、各種の記憶器及び記憶ユニット、半導体デバイス、磁気、光磁気ディスクなどの磁気ディスク装置、及び情報を格納するのに適した他の媒体が含まれるが、これらに限定されない。
【0076】
また、コンピュータはインターネット上の対応するウェブサイトに接続し、本発明によるコンピュータプログラムコードをダウンロードしてコンピュータにインストールした後に該プログラムを実行することで、本発明の技術案を実現することもできる。
【0077】
図6は本発明の実施例における方法及び/又は装置を実現し得る汎用パソコンの例示的な構成を示す図である。
【0078】
コンピュータ1000は、例えば、コンピュータシステムであっても良い。なお、コンピュータ1000は例示に過ぎず、本発明による方法及び装置の適用範囲又は機能について限定しない。また、コンピュータ1000は、上述の方法及び装置における任意のモジュールやアセンブリなど又はその組み合わせにも依存しない。
【0079】
図6では、中央処理装置(CPU)1001は、ROM1002に記憶されているプログラム又は記憶部1008からRAM1003にロッドされているプログラムに基づいて各種の処理を行う。RAM1003では、ニーズに応じて、CPU1001が各種の処理を行うときに必要なデータなどを記憶することもできる。CPU1001、ROM1002及びRAM1003は、バス1004を経由して互いに接続される。入力/出力インターフェース1005もバス1006に接続される。
【0080】
また、入力/出力インターフェース1005には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部1006、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部1007、ハードディスクなどを含む記憶部1008、ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む通信部1009である。通信部1009は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。ドライブ1010は、ニーズに応じて、入力/出力インターフェース1005に接続されても良い。取り外し可能な媒体1011、例えば、半導体メモリなどは、必要に応じて、ドライブ1010にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部1008にインストールすることができる。
【0081】
また、本発明は、さらに、マシン可読命令コードを含むプログラムプロダクトを提供する。このような命令コードは、マシンにより読み取られて実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種記憶媒体も、本発明に含まれる。
【0082】
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。
【0083】
また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。
【0084】
また、以上の実施例などに関し、さらに以下のように付記として開示する。
【0085】
(付記1)
情報処理装置であって、
訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練し、予測待ち画像を予測するための訓練済みの第一モデルを取得する第一訓練ユニットを含み、
前記訓練済みの第三モデルは第三訓練画像集合を利用して訓練を行うことで得られるものであり、
前記第三訓練画像集合は前記訓練済みの第二モデルを利用して正確に予測できない画像を含む、装置。
【0086】
(付記2)
付記1に記載の情報処理装置であって、
訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練することは、前記第一訓練画像集合を用いて総合損失関数に基づいて前記第一モデルを訓練することを含み、
前記総合損失関数は、前記第一モデル自身の損失関数;前記訓練済みの第二モデルと前記第一モデルとの間の予測パフォーマンスの差異としての第一差異;及び、前記訓練済みの第三モデルと前記第一モデルとの間の予測パフォーマンスの差異としての第二差異に関連付けられる、装置。
【0087】
(付記3)
付記2に記載の情報処理装置であって、
前記総合損失関数は、第一総合損失関数であって、前記第一総合損失関数は前記第一モデル自身の損失関数及び前記第一差異と関連付けられるもの;及び、第二総合損失関数であって、前記第二総合損失関数は前記第一モデル自身の損失関数及び前記第二差異と関連付けるものを含み、
前記第一訓練ユニットは、
前記第一モデルを訓練する過程で、前記第一訓練画像集合中の各訓練画像について、前記第一モデルを用いて該訓練画像を所定数の領域に分け、及び
前記所定数の領域のうちの各々について、該領域が困難領域と推定された場合、前記第二総合損失関数を使用し、該領域が困難領域と推定されない場合、前記第一総合損失関数を使用するように構成され、
前記困難領域は前記訓練済みの第二モデルを用いて正確に予測できない領域を含む、装置。
【0088】
(付記4)
付記3に記載の情報処理装置であって、
前記第一訓練画像集合中の各訓練画像について、困難領域のみにラベルを付ける、装置。
【0089】
(付記5)
付記1乃至4のうちの任意の一項に記載の情報処理装置であって、
前記第一訓練画像集合は前記第三訓練画像集合と少なくとも一部がオーバーラップしている、装置。
【0090】
(付記6)
付記1乃至4のうちの任意の一項に記載の情報処理装置であって、
前記第一モデル、前記訓練済みの第二モデル、前記訓練済みの第三モデルのうちの各々がインスタンスセグメンテーションモデルであり、及び/又は
前記第一モデルの初期構造パラメータは前記訓練済みの第二モデルの構造パラメータと少なくとも一部が同じである、装置。
【0091】
(付記7)
付記1乃至4のうちの任意の一項に記載の情報処理装置であって、
前記訓練済みの第一モデルは第一クラス集合について前記予測待ち画像を予測でき、
前記訓練済みの第二モデルは第二クラス集合について前記予測待ち画像を予測でで、
前記第二クラス集合は前記第一クラス集合と同じであり、又は、前記第二クラス集合は前記第一クラス集合の部分集合である、装置。
【0092】
(付記8)
付記1乃至4のうちの任意の一項に記載の情報処理装置であって、
前記予測待ち画像はリサイクル可能なものの画像を含み、
前記情報処理装置はさらに分類ユニットを含み、それは前記訓練済みの第一モデルによる前記予測待ち画像の予測結果に基づいて前記リサイクル可能なものを分類する、装置。
【0093】
(付記9)
情報処理方法であって、
訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練し、予測待ち画像を予測するための訓練済みの第一モデルを取得することを含み、
前記訓練済みの第三モデルは第三訓練画像集合を利用して訓練を行うことで得られるものであり、
前記第三訓練画像集合は前記訓練済みの第二モデルを用いて正確に予測できい画像を含む、方法。
【0094】
(付記10)
付記9に記載の情報処理方法であって、
訓練済みの第二モデル及び訓練済みの第三モデルに基づいて、第一訓練画像集合を利用して第一モデルを訓練することは、前記第一訓練画像集合を用いて総合損失関数に基づいて前記第一モデルを訓練することを含み、
前記総合損失関数は前記第一モデル自身の損失関数;前記訓練済みの第二モデルと前記第一モデルとの間の予測パフォーマンスの差異としての第一差異;及び、前記訓練済みの第三モデルと前記第一モデルとの間の予測パフォーマンスの差異としての第二差異に関連付けられる、方法。
【0095】
(付記11)
付記10に記載の情報処理方法であって、
前記総合損失関数は第一総合損失関数であって、前記第一総合損失関数は前記第一モデル自身の損失関数及び前記第一差異と関連付けられるもの;及び第二総合損失関数であって、前記第二総合損失関数は前記第一モデル自身の損失関数及び前記第二差異と関連付けられるものを含み、
前記第一モデルを訓練する過程では、
前記第一訓練画像集合中の各訓練画像について、前記第一モデルを用いて該訓練画像を所定数の領域に分け;及び
前記所定数の領域のうちの各々について、該領域が困難領域と推定された場合、前記第二総合損失関数を使用し、該領域が困難領域と推定されない場合、前記第一総合損失関数を使用し、
前記困難領域は前記訓練済みの第二モデルを用いて正確に予測できない領域を含む、方法。
【0096】
(付記12)
付記11に記載の情報処理方法であって、
前記第一訓練画像集合中の各訓練画像について、困難領域のみにラベルを付ける、方法。
【0097】
(付記13)
付記9乃至12のうちの任意の一項に記載の情報処理方法であって、
前記第一訓練画像集合は前記第三訓練画像集合と少なくとも一部がオーバーラップしている、方法。
【0098】
(付記14)
付記9乃至12のうちの任意の一項に記載の情報処理方法であって、
前記第一モデル、前記訓練済みの第二モデル、前記訓練済みの第三モデルのうち各々がインスタンスセグメンテーションモデルであり、及び/又は
前記第一モデルの初期構造パラメータは前記訓練済みの第二モデルの構造パラメータと少なくとも一部が同じである、方法。
【0099】
(付記15)
付記9乃至12のうちの任意の一項に記載の情報処理方法であって、
前記訓練済みの第一モデルは第一クラス集合について前記予測待ち画像を予測でき、
前記訓練済みの第二モデルは第二クラス集合について前記予測待ち画像を予測でき、
前記第二クラス集合は前記第一クラス集合と同じであり、又は、前記第二クラス集合は前記第一クラス集合の部分集合である、方法。
【0100】
(付記16)
付記9乃至12のうちの任意の一項に記載の情報処理方法であって、
前記予測待ち画像はリサイクル可能なものの画像を含み、
前記情報処理方法はさらに分類ステップを含み、それでは前記訓練済みの第一モデルによる前記予測待ち画像の予測結果に基づいて前記リサイクル可能なものを分類する、方法。
【0101】
(付記17)
プログラムを記憶しているコンピュータ可読記憶媒体であって、
前記プログラムはコンピュータにより実行されるときに、前記コンピュータに、付記9乃至16のうちの任意の一項に記載の情報処理方法を実行させる、記憶媒体。
【0102】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。