(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-28
(45)【発行日】2022-04-05
(54)【発明の名称】データセットの半自動ラベル付け
(51)【国際特許分類】
G06T 7/00 20170101AFI20220329BHJP
G06N 20/00 20190101ALI20220329BHJP
【FI】
G06T7/00 350C
G06N20/00 130
G06T7/00 300F
(21)【出願番号】P 2018536348
(86)(22)【出願日】2016-10-03
(86)【国際出願番号】 GB2016053071
(87)【国際公開番号】W WO2017055878
(87)【国際公開日】2017-04-06
【審査請求日】2019-09-25
(32)【優先日】2015-10-02
(33)【優先権主張国・地域又は機関】GB
(73)【特許権者】
【識別番号】518112239
【氏名又は名称】トラクタブル リミテッド
【氏名又は名称原語表記】TRACTABLE LTD.
(74)【代理人】
【識別番号】100123788
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】ダリアック、 アレクサンドレ
(72)【発明者】
【氏名】ランカ、 ラズヴァン
(72)【発明者】
【氏名】ホーガン、 ロバート
(72)【発明者】
【氏名】マカリース-パーク、 ナサニエル ジョン
(72)【発明者】
【氏名】チャットフィールド、 ケン
【審査官】合田 幸裕
(56)【参考文献】
【文献】国際公開第2014/103061(WO,A1)
【文献】特開2013-161295(JP,A)
【文献】国際公開第2015/134328(WO,A1)
【文献】米国特許出願公開第2015/0254532(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 20/00
IEEE Xplore
JSTPlus(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
機械学習モデルを用いて車両損傷修理を見積もるための計算モデルを、プロセッサが生成する方法であって、
ラベル付けされていない複数の車両画像を、異なる、関連のない車両から受信することと、
前記車両画像を前記機械学習モデルによってラベル付けすることと、
ラベル付けまたはラベル検証のためのユーザに対する提示用に前記車両画像のサブグループを作成することと、
前記サブグループのラベル検証またはユーザ再ラベル付けまたはユーザラベル付けを受信することと、
前記複数の車両画像にて前記機械学習モデルを訓練することと、
前記機械学習モデルによる前記複数の車両画像についての前記ラベル付けの処理を繰り返す再ラベル付けを行うことと、
を含む、方法。
【請求項2】
前記車両画像の目標とされるサブグループをその目標とされるサブグループのラベル付けおよびラベル検証のためのユーザに対する目標を定めた提示用に、決定することをさらに含む、請求項
1に記載の方法。
【請求項3】
前記
車両画像のサブグループを作成することが、
グリッド内に複数の画像を作成して、そのグリッドを提示することと、
1つまたは複数の選択されたデータインスタンスに類似するデータインスタンスをベイジアンセット法により特定して、それらの類似するデータインスタンスを提示することと、
複数の代表データインスタンスを決定することと、それらの代表データインスタンスのみのクラスタプロットを作成して、そのクラスタプロットを提示することと、
の少なくともいずれか1つを含み、好ましくは、
前記複数の代表データインスタンスが、特徴空間内または入力空間内で決定される、もしくは
前記複数の代表データインスタンスがサンプリングによって決定される、
のいずれかであり、
前記車両画像のサブグループを作成することが、前記複数の代表データインスタンスの2次元または3次元への次元縮小することをさらに含み、より好ましくは、
前記次元縮小が、t-SNE(t-distributed stochastic neighbour embedding)によるものである、請求項
1または
2に記載の方法。
【請求項4】
前記ラベル付けされていない複数の車両画像とともに複数の非車両画像を受信することと、
前記車両画像とともに前記非車両画像を前記機械学習モデルによって処理することと、
検証のためのユーザに対する提示用に前記非車両画像を作成することと、
前記非車両画像の検証を受信することと、
前記非車両画像を削除して、
前記ラベル付けされていない複数の車両画像を生成することとをさらに含む、請求項
1から
3のいずれかに記載の方法。
【請求項5】
前記車両画像のサブグループがすべて、特定の車両部分を示す、請求項
1から
4のいずれかに記載の方法。
【請求項6】
前記車両画像のサブグループがすべて、損傷状態にある特定の車両部分を示す、請求項
1から
5のいずれかに記載の方法。
【請求項7】
前記車両画像のサブグループがすべて、修理が可能である損傷状態にある特定の車両部分を示す、請求項
1から
6のいずれかに記載の方法。
【請求項8】
前記車両画像のサブグループがすべて、交換が適している損傷状態にある特定の車両部分を示す、請求項
1から
6のいずれかに記載の方法。
【請求項9】
車両損傷修理を見積もる
ことをさらに含む、請求項1から8のいずれかに記載の方法。
【請求項10】
画像から1つまたは複数の損傷部分を特定し、
前記損傷部分は、修理が可能であるのか、または交換が適しているのかを特定し、
前記車両損傷に対する修理費見積もりを計算することによって、修理費見積もりを計算する
ことをさらに含む、請求項
9に記載の
方法。
【請求項11】
前記修理費見積もりの確実性を計算する
ことをさらに含む、請求項
10に記載の
方法。
【請求項12】
廃車の推奨を決定する
ことをさらに含む、請求項
10または
11に記載の
方法。
【請求項13】
損傷車両の複数の画像を条件とするその出力を計算して、車両損傷修理を見積もる
ことをさらに含む、請求項
10から
12のいずれかに記載の
方法。
【請求項14】
内部損傷の見積もりを計算する
ことをさらに含む、請求項
10から
13のいずれかに記載の
方法。
【請求項15】
1つまたは複数のさらなる画像をユーザから要求する
ことをさらに含む、請求項
10から
14のいずれかに記載の
方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データセット内のデータの分類(または回帰)に関する。特に、本発明は、1つまたは複数のデータセットへの機械学習技術の応用を促進するために、1つまたは複数のデータセット内のデータにタグを割り当てることに関する。本発明はまた、データ分類(または回帰)中のコンピュータ支援の品質制御の方法、ならびに1つまたは複数のデータセット内のデータの半自動化されたタグ付与の方法に関する。
【背景技術】
【0002】
分類(または回帰)または回帰のための教師あり学習アルゴリズムの応用において、訓練データは、初めに正しくラベル付けされる必要があり、すなわち、従属変数が訓練データの各データ点に正しく割り当てられることを要する。教師あり学習アルゴリズムは、従属変数のための値が知られておりかつ正確であると仮定される回帰または分類技術である。従属変数が学習されている変数であり、この変数は、分類の場合には離散的および回帰の場合には連続的であり、分類におけるタグまたはラベルとしても知られる。訓練データ用の従属変数の値は、知識のある人間が従属変数の地上検証データの値が何であるかに関して自らの意見を表現することによる手動の注釈付けによって、または他の手段によって地上検証データの結果の記録として獲得された地上検証データの値そのものによって獲得されていてもよい。例えば、地質学的応用においては、訓練セットは、3D地震スキャンのセットであってもよく、その場合、データ点は、スキャン内のボクセルであり、従属変数は、ボクセルによって表される空間内の点における資源賦存量についての指標であり、この値は、掘削または検知によって発見されたものであり得る。法的応用においては、訓練セットは、過去の事件訴訟のセットであってもよく、その場合、データ点は、事件訴訟を表す文書の集合であり、従属変数の地上検証データの値は、被告に対する訴訟の実際の財務的結果である。次いで、完全にラベル付けされたデータが、1つまたは複数の教師あり学習アルゴリズムを訓練するために使用される。
【0003】
多くの例においては、知識のある人間が個々のデータ点にタグを追加することによって訓練データを生成することが必要である。この訓練データを作成すること(すなわち、データを正しく分類すること)は、特に大量の訓練データが使用されることになる場合、およびデータの事前作成の品質が一貫して高くない場合には、非常に労働集約的でコストが高くかつ不便である。従来のインタラクティブなラベル付けは、計算コストが高く、良好な結果をもたらすことができない。
【0004】
自動車保険支払い請求格付けおよび修理見積もりのための従来の画像分析において、画像は、標準化された条件下(照明、角度、ズーム、背景など)で制御された環境で撮影される。制御された環境から画像を提供するために、専用の場所に特別な設備が必要とされ、分析される自動車はそれらの専用の場所に移送される。これは、非常にコストが高く不便である。
【発明の概要】
【0005】
態様および/または実施態様は、改善された効率性で1つまたは複数のデータセットのラベル付けを可能にし得る、1つまたは複数のデータセット内のデータをラベル付けする方法および/またはシステムを提供することができる。
【0006】
さらに、態様および/または実施態様は、上記問題のうちの少なくとも一部を緩和することができる、自動車保険支払い請求格付けおよび修理見積もりのための画像解析の改善されたシステムを提供することができる。特に、本システムは、未制御環境にある汎用ハードウェアからの画像を収容することができる。
【0007】
一態様によると、分類(または回帰)のための機械学習モデルを用いて、ラベル付けされていないかまたは部分的にラベル付けされた目標データセットをモデリングする方法であって、目標データセットを機械学習モデルによって処理することと、ラベル付けまたはラベル検証のためのユーザに対する提示用に目標データセットのサブグループを作成することと、サブグループのラベル検証またはユーザ再ラベル付けまたはユーザラベル付けを受信することと、更新された目標データセットを機械学習モデルによって再処理することと、を含む方法が提供される。
【0008】
分類されていないまたは部分的に分類された目標データセットを機械学習モデルを用いてモデリングすることと組み合わせたユーザラベル付けまたはラベル検証は、目標データセットのラベル付けされていない構成要素の効率的なラベル付けを可能にし得る。モデリングに機械学習モデルを使用することによって、様々な撮像条件(照明、角度、ズーム、背景、オクルージョンなど)を有する画像が、効果的に処理され得る。機械学習アルゴリズムは、例えば、畳み込みニューラルネットワーク、サポートベクタマシン、ランダムフォレスト、またはニューラルネットワークであってもよい。任意選択的に、機械学習モデルは、高次元画像(例えば、10,000ピクセル以上)に対して分類または回帰を実施するのに十分に適しているものである。
【0009】
任意選択的に、本方法は、目標データセットの目標とされるサブグループを、その目標とされるサブグループのラベル付けおよびラベル検証のためのユーザに対する目標を定めた提示用に、決定することを含んでもよい。これが、ユーザに対して提案されるクエリにユーザが受動的に応答することを可能にし得るため、ユーザの主導権、スキル、および知識への依存性を低減して、モデルおよびデータセット品質を改善することができる。
【0010】
任意選択的に、該作成することは、複数の代表データインスタンスを決定すること、およびそれらの代表データインスタンスのみのクラスタプロットを作成して、そのクラスタプロットを提示することを含んでもよい。これにより、計算負荷を軽減し、高次元データセットの迅速な表示、したがって可視化のためのクラスタプロットの迅速な作成を可能にし得る。任意選択的に、複数の代表データインスタンスは、特徴空間内で決定されてもよい。任意選択的に、複数の代表データインスタンスは、入力空間内で決定されてもよい。任意選択的に、複数の代表データインスタンスは、サンプリングによって決定されてもよい。任意選択的に、該作成することは、複数の代表データインスタンスの2次元または3次元への次元縮小を含んでもよい。任意選択的に、次元縮小は、t-SNE(t-distributed stochastic neighbour embedding)によるものであってよい。
【0011】
任意選択的に、該作成することは、グリッド内に複数の画像を作成して、そのグリッドを提示することを含んでもよい。グリッドでの提示は、標準的でない画像の特に効率的な特定を可能にし得る。
【0012】
任意選択的に、該作成することは、1つまたは複数の選択されたデータインスタンスに類似するデータインスタンスをベイジアンセット法により特定して、それらの類似するデータインスタンスを提示することを含んでもよい。ベイジアンセット法は、特に効率的な処理を可能にし得、それにより、処理を実施するのに必要とされる時間を低減することができる。
【0013】
別の態様によると、畳み込みニューラルネットワークを用いて車両損傷修理を見積もるための計算モデルを生成する方法であって、ラベル付けされていない複数の車両画像を受信することと、該車両画像を畳み込みニューラルネットワークによって処理することと、ラベル付けまたはラベル検証のためのユーザに対する提示用に車両画像のサブグループを作成することと、該サブグループのラベル検証またはユーザ再ラベル付けまたはユーザラベル付けを受信することと、複数の車両画像を畳み込みニューラルネットワークによって再処理することと、を含む方法が提供される。
【0014】
ラベル付けされていない画像を含む目標データセットを畳み込みニューラルネットワークを用いてモデリングすることと組み合わせたユーザラベル付けまたはラベル検証は、目標データセットのラベル付けされていない画像の効率的な分類(または回帰)を可能にし得る。モデリングに畳み込みニューラルネットワークを使用することによって、様々な撮像条件(照明、角度、ズーム、背景、オクルージョンなど)を有する画像が、効果的に処理され得る。別の機械学習アルゴリズムが、畳み込みニューラルネットワークに取って代わってもよい。
【0015】
任意選択的に、本方法は、車両画像の目標とされるサブグループを、その目標とされるサブグループのラベル付けおよびラベル検証のためのユーザに対する目標を定めた提示用に、決定することを含んでもよい。これが、ユーザに対して提案されるクエリにユーザが受動的に応答することを可能にし得るため、ユーザの主導権、スキル、および知識への依存性を低減して、モデルおよびデータセット品質を改善することができる。任意選択的に、該作成することは、上記のようなデータを作成するステップのうちの1つまたは複数を含んでもよい。
【0016】
任意選択的に、本方法は、ラベル付けされていない複数の車両画像とともに複数の非車両画像を受信することと、車両画像とともに非車両画像を畳み込みニューラルネットワークによって処理することと、検証のためのユーザに対する提示用に非車両画像を作成することと、非車両画像の検証を受信することと、非車両画像を削除して、ラベル付けされていない複数の車両画像を生成することと、をさらに含んでもよい。これが、無関係の画像を含むデータセットの改善を可能にし得る。
【0017】
車両画像のサブグループはすべて、特定の車両部分を示してもよい。これが、車両部分による画像のタグ付けを可能にし得る。画像は、画像と関連付けられた2つ以上の車両部分タグを有してもよい。車両画像のサブグループはすべて、損傷状態にある特定の車両部分を示してもよい。これが、損傷ステータスによる画像のラベル付けを可能にし得る。車両画像のサブグループはすべて、修理が可能である損傷状態にある特定の車両部分を示してもよい。車両画像のサブグループはすべて、交換が適している損傷状態にある特定の車両部分を示してもよい。これが、修理または交換のどちらが最も適切であるかの指標を用いて画像をラベル付けすることを可能にし得る。
【0018】
別の態様によると、上記のような方法によって生成された、車両損傷修理を見積もるための計算モデルが提供される。これが、車両損傷をモデリングすることができるモデルおよび適切な修理/交換応答を特に良好に生成することを可能にし得る。
【0019】
計算モデルは、画像から1つまたは複数の損傷部分を特定し、その損傷部分は、修理が可能であるのか、または交換が適しているのかを特定し、車両損傷に対する修理費見積もりを計算することによって、修理費見積もりを計算するように適合されていてもよい。これが、車両損傷に関する保険支払い請求の素早い処理を可能にし得る。
【0020】
任意選択的に、有用性を高めるため、計算モデルは、修理費見積もりの確実性を計算するように適合されていてもよい。任意選択的に、有用性を高めるため、計算モデルは、廃車の推奨を決定するように適合されていてもよい。任意選択的に、修理費見積もりの質を高めるため、計算モデルは、損傷車両の複数の画像を条件とするその出力を計算して、車両損傷修理を見積もるように適合されていてもよい。任意選択的に、修理費見積もりの質を高めるため、計算モデルは、損傷車両の複数の画像を受信して、車両損傷修理を見積もるように適合されていてもよい。任意選択的に、有用性を高めるため、計算モデルは、内部損傷の見積もりを計算するように適合されていてもよい。任意選択的に、有用性を高めるため、計算モデルは、1つまたは複数のさらなる画像をユーザから要求するように適合されていてもよい。
【0021】
別の態様によると、上記のような計算モデルを生成するように適合されているソフトウェアが提供される。別の態様によると、上記のような計算モデルを生成するように適合されているプロセッサが提供される。
【0022】
態様および/または実施態様は、実質的に、本明細書に説明されるような、および/または添付の図面を参照して例証されるような、データをモデリングする方法にまで及び得る。
【0023】
態様および/または実施態様はまた、本明細書に説明されるような、および/または添付の図面を参照して例証されるような、車両損傷修理を見積もるための計算モデルを生成する方法にまで及び得る。
【0024】
態様および/または実施態様はまた、実質的に、本明細書に説明されるような、および/または添付の図面を参照して例証されるような計算モデルにまで及び得る。
【0025】
態様および/または実施態様はまた、実質的に、本明細書に説明されるような、および/または添付の図面を参照して例証されるような、データをモデリングするためのソフトウェアにまで及び得る。
【0026】
態様および/または実施態様はまた、実質的に、本明細書に説明されるような、および/または添付の図面を参照して例証されるような、データをモデリングするためのシステムにまで及び得る。
【0027】
態様および/または実施態様はまた、実質的に、本明細書に説明されるような、および/または添付の図面を参照して例証されるような方法および/または装置にまで及び得る。
【0028】
態様および/または実施態様はまた、本明細書内で説明される方法のうちのいずれかを実行するおよび/または本明細書内で説明される装置特徴のうちのいずれかを具現化するコンピュータプログラムおよびコンピュータプログラム製品、ならびに本明細書内で説明される方法のうちのいずれかを実行するおよび/または本明細書内で説明される装置特徴のうちのいずれかを具現化するプログラムを格納しているコンピュータ可読媒体を提供し得る。
【0029】
態様および/または実施態様はまた、本明細書内で説明される方法のうちのいずれかを実行するおよび/または本明細書内で説明される装置特徴のうちのいずれかを具現化するコンピュータプログラムを具現化する信号、そのような信号を送信する方法、ならびに本明細書内で説明される方法のうちのいずれかを実行するおよび/または本明細書内で説明される装置特徴のうちのいずれかを具現化するコンピュータプログラムをサポートするオペレーティングシステムを有するコンピュータ製品を提供し得る。
【0030】
本明細書内で説明されるいかなる装置特徴も、方法特徴として提供されてよく、その逆も然りである。本明細書内で使用される場合、ミーンズプラスファンクション特徴は、好適にプログラムされたプロセッサおよび関連メモリなど、それらの対応する構造体に関して、代替的に表現されてもよい。
【0031】
一態様における任意の特徴は、任意の適切な組み合わせで、他の態様に適用されてもよい。特に、方法の態様は、装置の態様に適用されてもよく、その逆も然りである。さらには、一態様における任意の特徴、いくつかの特徴、および/またはすべての特徴は、任意の適切な組み合わせで、任意の他の態様における任意の特徴、いくつかの特徴、および/またはすべての特徴に適用され得る。
【0032】
任意の態様において説明および規定される様々な特徴の特定の組み合わせは独立して、組み込まれ得る、および/または供給され得る、および/または使用され得るということを理解されたい。
【0033】
さらには、ハードウェアに組み込まれた特徴は、一般的には、ソフトウェアに組み込まれてもよく、その逆も然りである。本明細書内のソフトウェアおよびハードウェア特徴に対するいかなる言及もそれに応じて解釈されるべきである。
【図面の簡単な説明】
【0034】
本発明のこれらの態様および他の態様は、同様の参照番号を有する以下の図面を参照して説明される以下の実施態様例から明らかになるものとする。
【
図1】データをラベル付けする方法の概略図である。
【
図3】データをラベル付けするためのシステムの概略図である。
【
図4a】クラスタプロットを用いたグラフィックユーザインターフェースの図である。
【
図4b】クラスタプロットを用いたグラフィックユーザインターフェースの図である。
【
図5】画像のグリッドを用いたグラフィックユーザインターフェースの図である。
【
図6a】目標を定めた監視のためのグラフィックユーザインターフェースの図である。
【
図6b】目標を定めた監視のためのグラフィックユーザインターフェースの図である。
【
図7】車両損傷見積もりのためのシステムの概略図である。
【発明を実施するための形態】
【0035】
およそ10年の間、多くの国々の車両ボディ取扱店および損害査定人は、保険業者または事務弁護士に提出される修理見積もりを裏付けるために証拠として損傷車両の写真を撮影してきた。毎年米国内だけでおよそ1900万件の自動車保険支払い請求、および請求あたりおよそ10枚の画像があることから、損傷車両に関する大量の画像データが存在する。
【0036】
機械学習は、既存の車両損傷画像を活用するのに魅力的なツールであり、深層学習(および特に畳み込みニューラルネットワーク)は、高次元感覚データの自動認識および理解に向けて大いに前進してきた。これらの技術を支える基本的な考え方の1つは、アルゴリズムが、最も有用な特徴を抽出することを学習することによってデータを最もよく表すやり方を決定することができるということである。抽出された特徴が十分である(十分に差異化が可能である)場合、任意の基本機械学習アルゴリズムが抽出された特徴に適用されて、最良の結果を獲得することができる。畳み込みニューラルネットワーク(convnetまたはCNNとも称される)は、画像データをカテゴリー分類するのに特によく適しており、教師あり学習によって訓練された畳み込みニューラルネットワークのグラフィックプロセッサユニット(GPU)実装形態は、「自然のままの」画像(標準化されていない条件下で採用され、自動車モデルにわたって、例えば、照明、角度、ズーム、背景、オクルージョン、およびデザインの多様性を有し、誤差および無関係の画像を含み、品質および信頼性に関して多様性を有する)に対する高い画像分類(または回帰)性能を実証してきた。
【0037】
大量の車両損傷画像を活用して畳み込みニューラルネットワークを訓練するためには、データは、できる限り誤差がないものである必要があり、特に画像は、正しくラベル付けされる必要がある。産業データセットは、無関係のデータも含む場合がある、ノイズの多いデータ/欠損データ/一貫性なくまたは部分的にラベル付けされたデータの取り扱いなどの新規の問題を深層学習に引き起こす。
【0038】
機械学習が良質の分類(または回帰)を実施するためには、訓練のために良好なデータ品質を確保すること、およびそのデータ上で十分に良好なモデルを訓練することが必要である。従来、ユーザは、データを調べて品質に満足がいくまでデータを(再)ラベル付けすることによって、まず訓練用のデータを作成することを要求される。次いで、モデルは、クリーンなデータ上で訓練される。
【0039】
ユーザがラベルを画像に割り当てることによって訓練データセットをラベル付けすること(およびより一般的にはクリーンにすること)は、商業的応用では禁止されている程に非常に時間がかかりかつコストの高い手順である。
【0040】
訓練データセットの作成およびモデルの訓練がインターリーブされれば、大幅に改善された効率が達成され得る。これは、このアルゴリズムが、不十分であることが知られているデータセットを用いて学習を開始することから、直感的手法ではない。しかしながら、異種でありかつ誤っている可能性のあるデータセットを特定するという機械学習アルゴリズムの能力を活用すれば、このアルゴリズムは非常に効率的であり得る。モデル訓練の各反復が、後続の再ラベル付け反復にとっての最良の手法を知らせる(その逆も然りである)。この反復プロセスの最終結果が、十分な品質のデータセットおよびこのデータセットに対する十分に差異化が可能な特徴を提供するモデルである。
【0041】
データは、画像(各画像が個々のデータセットを表している)の形態にあり得るか、またはデータは、テキスト(各ワードが、例えば、個々のデータセットを表している)もしくは音などの任意の高次元データであり得る。
【0042】
畳み込みニューラルネットワークを訓練するために既存の画像データの使用を可能にするために、これより半自動ラベル付けについて説明する。
【0043】
半自動ラベル付けは、データセットのラベル付けを半自動化する。モデルは、誤差を含むことが知られているデータ上で訓練される。モデルは、データをモデリングおよび分類(または回帰)することを試みる。選択されたデータ点(個々の画像または画像グループ)の、ラベル付けまたはタグ付けとも称される分類は、ユーザ(権威者または監督者とも称される)によってレビューされ、修正または承認される。ラベルは、反復して精緻化され、次いでモデルが、ラベル付けされたデータに基づいて精緻化される。ユーザは、能動的に、モデル出力をレビューし、レビューおよびラベル付けのために画像を検索することができるか、または、ユーザは、特定の画像のラベル付けに関するモデルからのクエリに受動的に応答することができる。
【0044】
図1は、半自動ラベル付けの方法の概略図である。
図2は、
図1の半自動ラベル付けの方法のステップの概略図である。
図3は、半自動ラベル付けのためのシステム100の概略図である。プロセッサ104は、データセット102が計算モデル106を用いてどのようにモデリングされるかに関する情報を入力/出力108を介してユーザ110に提供する。ユーザ110は、計算モデル106を用いてデータセット102をモデリングするために入力/出力108を介してプロセッサ104にガイダンスを提供する。
【0045】
能動的なユーザレビューを伴う半自動ラベル付けの操作シーケンスは以下の通りである。
1.(量およびラベルに関して)可能な限り最も類似するデータ上でモデルを事前訓練する。
2.目標データを事前訓練されたモデルを用いてモデリングする。
3.ユーザによるレビュー用に、モデリングされた目標データを作成する。
【0046】
a.モデルを用いて目標データセットの特徴を抽出する(特徴セットと称される)。
【0047】
b.その特徴セットに対して次元縮小を実施する。
【0048】
c.特徴点にラベルを割り当てない/いくつかの特徴点にラベルを割り当てる/すべての特徴点にラベルを割り当てる。
【0049】
d.ラベル付けされた特徴セットに対して可視化技術を適用する。
4.タグ付けされた特徴セットを閲覧および編集するためにユーザに効率的なインターフェースを提示する。
【0050】
a.ユーザが、ラベル付けされた特徴セットを効率的に閲覧して検証すべき領域を見つける。
【0051】
b.ユーザが、インターフェース上に表示されたラベルを検証または修正する。
5.十分なデータおよびモデル品質が達成されるまで、検証済み/修正済みのラベル付けを用いてステップ2からサイクルを繰り返す。
6.ラベル付けされたデータセットまたは特徴セットのいくつか/すべてを使用して、十分なデータおよびモデル品質が達成されるまで最新の特徴抽出モデルを微調整する。
【0052】
上に設計されるような半自動ラベル付け手順の例では、およそ30,000枚の画像が、単一ユーザで1時間で、90%の正確性で18クラスを有するスキームへとラベル付けされ得る。
【0053】
クエリに対する受動ユーザ応答の場合(目標を定めた監視とも称される)、上記のシーケンスのステップ3および4は以下の通りである。
3.ユーザによるレビュー用に、モデリングされたフルデータを作成する。
【0054】
a.モデルを用いて目標データセットの特徴を抽出する(特徴セットと称される)。
【0055】
b.特徴セットに対して次元縮小を実施する。
【0056】
c.特徴点にラベルを割り当てない/いくつかの特徴点にラベルを割り当てる/すべての特徴点にラベルを割り当てる。
【0057】
d.ラベル付けされた特徴セットに対して可視化技術を適用する。
【0058】
e.次の最良ユーザクエリを概算する。
4.ラベル付けされた特徴セットをレビューするためにユーザにクエリを提示する。
【0059】
a.ユーザにクエリを効率的に提示する。
【0060】
b.ユーザが、インターフェース上に表示されたラベルを検証または修正する。
【0061】
受動および能動ユーザレビューはまた、互いと並行して両方を提供することによって組み合わされ得る。
【0062】
「ラベルを一部/すべての特徴点に割り当てる」ステップ3cは、特徴空間をクラス領域に区分するなどのクラスタリング技術によって、分類のために実施され得る。ステップ3cはまた、特徴空間にわたって離散的ランダム値を規定するなどの離散技術によって、回帰のために実施され得る。
【0063】
ステップ6(微調整)の部分として、以下の追加ステップが実行されてもよい。
【0064】
a.見えないデータ上でモデルを実行し、分類(または回帰)の確率によって画像をランク付けする(バイナリが理由で可能である)。
【0065】
b.特に情報の誤りの特定のために、高確率画像および低確率画像をユーザに提示する。
【0066】
別形では、クラスタプロット内の意味上のクラスタリング(例えば、すべての自動車のバンパの画像が一緒に示されるなど、データは画像コンテンツで区切られて示される)は、より効果のある微調整を可能にするために、確率ランクで(例えば、確率を表す色で)強化される。
【0067】
以下に挙げるように、上に設計されるシーケンスを実施するにあたって考慮すべきさらなる検討事項がいくつか存在する。
・任意の既存のラベルを最大限に活用してプロセスを初期化すること。最悪の場合、ラベルは無用であり、教師なし初期化が実施される。そうでなければ、教師ありモデルは、利用可能ないかなるラベル上でも訓練され得る。
・モデルが何をしているかをユーザが理解できるように、抽出された特徴の可視化を最適化すること。実際の特徴は、高次元空間(すなわち>1000次元)内に存在するため、それらは、できる限り多くの情報を維持しながら2次元または3次元まで低減される必要がある。この可視化をリアルタイムで実施することは、大きな利益をもたらす。
・次の訓練反復に最大の利益をもたらすように、データの一部分を再ラベル付けすること。1つの手法は、モデルが、モデル訓練中に「最も紛らわしい」と思われた画像/画像クラスタのランク付けリストをユーザに与えることである。
・新しいユーザ入力を考慮するためにモデルの再訓練を最適化すること。最も簡単な場合、ユーザが、モデルが再訓練されるべきであると考える程度を特定する。これは、再訓練がどれくらい表現的であるか、およびそれにどれくらいの時間がかかるのかに影響する。モデルに与えられる新しい情報を活用するには十分な表現性が必要とされるが、新しいデータを過剰適合するほどではない。
・各反復に対してモデルの実際の性能を評価する。通常、データの一部分は訓練に使用されないため、モデルの性能は、その部分に対して評価され得る。しかしながら、訓練のために少量の最近再ラベル付けされたデータの一部を使用しないことは、再ラベル付けサイクルの速度を大幅に遅くする場合がある。うまくこの2つの間の均衡を取らなければならない。
【0068】
上記の半自動ラベル付けを実施するために使用され得るいくつかの技術は、以下の通りである。
・事前訓練された畳み込みニューラルネットワーク
・GPUにわたって並列処理することによって特徴を抽出する
・次元縮小のための主成分分析(PCA)これは、t-distributed stochastic neighbour embedding(tSNE)では特に適しており、ベイジアンセットでは、PCAはあまり適していない場合がある。tSNEが十分に高速である場合は、次元縮小が不必要な場合さえある。
・k平均法クラスタリングアルゴリズムを用いて重心のシード値を設定するための特徴セット調査
・k平均法重心に対するt-distributed stochastic neighbour embedding(tSNE)
・クラスタが中心として重心を有する円で表され、画像数が直径によって表され、色として最も多いクラス色を有する、tSNEのクラスタプロットを用いたグラフィックユーザインターフェース(GUI)
・ラベルを検証/編集するために100までの画像のGUIグリッド
・畳み込みニューラルネットワークに適用されるベイジアンセット
・モデルのsoftmax微調整
・モデルのSiamese微調整
・モデルのtriplet loss微調整
事前訓練された畳み込みニューラルネットワークは、例えば、ImageNet集からの画像上で訓練されてもよい。
【0069】
図4aは、意味上のクラスタリングを提供する(例えば、すべての自動車のバンパの画像は、クラスタプロット内の同じエリア内にある)クラスタプロットを用いたグラフィックユーザインターフェースの図である。クラスタプロットは、特徴空間内のデータセットの分布を示す円を示す。このプロットは、ユーザに提示され、その後ユーザは、さらなるレビューのために円のうちの1つまたは複数を選択することができる。ラベル付けされた/ラベル付けされていないというステータスは、例えば、円の色によって、プロット内に示され得る。レビューのために選択された/選択されていないは、例えば、円の色によって、プロット内に示され得る。
図4bは、円の色がデータと関連付けられたラベルを示すクラスタプロットを用いたグラフィックユーザインターフェースの図である。ユーザが円上にマウスポインタを重ねると、ユーザに画像データが提示されてもよい。円のグループのユーザ選択は、ユーザにクラスタプロット内の目的のグループの周りに境界線を描かせることによって達成され得る。
【0070】
図5は、画像のグリッドを用いたグラフィックユーザインターフェースの図である。クラスタプロット内で選択される画像は、ユーザレビューのためにグリッド内に示される。グリッドは、例えば、8枚の画像が1列に横に並び、互いの下に6列の画像がある。例示された例では、グリッドは、7×5の画像を示す。人間の視覚野は、特に高い効率性で、グリッド形式にある異種の画像を整理し特定することができる。画像をグリッド形式で表示することによって、大量の画像がユーザに提示されて、短時間でユーザによりレビューされ得る。例えば、1画面あたり48枚の画像が含まれる場合、21画面でユーザは1000枚を超える画像をレビューすることができる。グリッド内の画像は、特定のラベルでラベル付けするために選択または選択解除され得る。画像は、類似性検索など、さらなるレビューのために選択または選択解除され得る。
【0071】
類似性検索は、目的とする特定の画像または画像グループに類似している画像を見つけるために実行されてもよい。これは、ユーザが、特に興味のある個々の画像(例えば、フロントガラスの画像のクラスタ内の傷の付いたフロントガラスの画像)を見つけること、類似しているさらなる画像を見つけること、およびまとめて画像にラベルを提供することを可能にし得る。
【0072】
図6aおよび
図6bは、目標を定めた監視のためのグラフィックユーザインターフェースの図である。ここでは、クラスタ化されたように見えるいくつかの画像(例示された例では7枚の画像)が、ユーザに提供され、それらの画像用にラベルをユーザ入力するためのフィールドが提供される。
図6aは、ユーザ入力のための空のフィールドを示し、
図6bは、ユーザによってラベルが入力されている状態のフィールド、ならびに色付きのフレームでマークされた画像を示し、色はその画像に関連付けられたラベルを示す。
【0073】
これより、特徴セットに対して次元縮小を実施する方法(上のステップ3.c)をより詳細に説明する。例では、特徴セットは、およそ-2~2の範囲の(およびより一般的には、典型的な範囲の)値を有する4096次元ベクトル(およびより一般的には、N次元ベクトル)である。2次元または3次元への次元縮小(人間によって直感的に理解され得るような)は、膨大な計算リソースを必要とし得、また膨大な時間がかかり得る。この計算的に労働集約型のステップを短縮するために、データセットは、特徴空間内でクラスタ化され、各クラスタから単一の代表データインスタンス(重心、例えば、k平均法クラスタ重心とも称される)が、さらなる処理のために選択される。次いで、次元縮小が、代表データに対してのみ実施され、それにより、非常に大きいデータセットの非常に迅速な可視化が可能である程度まで計算負荷を低減する。データセットからのデータ点は、ユーザに対してクラスタプロット内に個々に示されないが、ユーザに示されるクラスタプロット内の円の直径が、特徴空間内の関連する代表データインスタンスに近く、したがって同一または同様のラベル値を有すると推測されるデータ点の数を示す。クラスタプロット内の円を選択することにより、ユーザは、その円によって表される画像のすべてを提示される。これにより、ユーザは、代表画像によって表されるすべての画像をチェックすることが可能になる。円のスケーリングは、表示の明確性のためにユーザによって最適化および/または調節され得る。
【0074】
これより、類似性検索を実施する方法をより詳細に説明する。画像は、(およそ-2~2などの)値の範囲を有する高次元ベクトル(4096次元ベクトルなど)によって特徴空間内に表される。大量のそのようなベクトルに対して類似性検索を実施することは、計算的に労働集約型であり得、また膨大な時間がかかり得る。ベイジアンセットは、特に興味のある画像または画像グループに類似したエンティティを特定する非常に素早くかつ簡単な手段を提供することができる。ベイジアンセット法を適用するためには、データ(ここでは高次元ベクトル)は、ある範囲の値を有するよりもバイナリであることが必要とされる。ベイジアンセット法を適用するために、特徴セットベクトルは、バイナリベクトルへと変換される。すなわち、ゼロに近い値はゼロに変えられ、ゼロから遠く離れた値は1に変えられる。ベイジアンセット法による類似性検索では、これが良好な結果をもたらし得る。畳み込みニューラルネットワーク(またはより一般的には、画像に適しており、スパース表現を用いた機械学習モデル)へのベイジアンセットの適用は、畳み込みニューラルネットワークが典型的には、半自動ラベル付けの状況においてはスパース表現を有するバイナリベクトルにキャストするのに結果として容易であるスパース表現(ベクトル内に多くのゼロ)を有する特徴セットを生成するため、特に有益である。
【0075】
これより、車両損傷見積もりに適用される半自動ラベル付けをより詳細に説明する。車両損傷の所与の事例では、結果は、必要な修理の予測および損傷車両の自然のままの画像に基づいた対応する修理費の見積もりである。これは、保険業者が、例えば、車両損傷に対する応答をどのように進めるかに関する決定を行うことを可能にし得る。結果は、「車両を廃車にする」、「大きな修理の必要性」、または「軽い修理の必要性」などの格付け推奨を含んでもよい。
【0076】
図7は、車両損傷見積もりのためのシステム700の概略図である。ユーザ710は、カメラ714を使用して損傷車両716の画像712を撮影し、画像712をモバイルデバイス708(例えば、タブレットまたはスマートフォン)を介してシステム700に送信する。プロセッサ704は、計算モデル706を使用して、画像712を評価し、車両損傷見積もりを生成し、その車両損傷見積もりは、モバイルデバイス708を介してユーザ710に提供される。レポートが、保険業者または車両修理店などの他の関係者に提供されてもよい。画像712は、モバイルデバイス708によって直接撮影されてもよい。画像712は、データセット702に追加されてもよく、モデル706は、画像712で更新されてもよい。
【0077】
修理見積もりを生成するため、本手順は、最適な処理のために以下のように分けられる。
【0078】
1.深層学習(好ましくは、畳み込みニューラルネットワーク)を介して損傷部分のセットを認識する。例えば車両所有者から提供された画像には、部分ラベルは提供されていないため、画像データ用のかなり豊富なモデルが必要である。車両所有者が、車両全体が見える画像を提供することが必要とされる場合がある。最も相応しいおよび適した画像が提供されることを確実にするために、ユーザへのリアルタイムの対話型フィードバックが実施されてもよい。例えば、1つまたは複数の「品質保証」分類子から画像を供給し、結果をリアルタイムで戻すことにより、ユーザが正確な修理見積もりに必要な画像すべてを撮影することを確実にする。
【0079】
2.畳み込みニューラルネットワークを介して各損傷部分について「修理」/「交換」ラベルを予測する。修理/交換の区別は、典型的には非常にノイズが多く、誤ったラベル付けが発生する場合がある。これを解決するため、画像あたりの部分ラベルが特定される。その後、修理/交換ラベルは画像あたりではなく、部分あたりとなるため、より信頼性が高い。相互参照が、対応する部分が存在する個々の画像について修理/交換ラベルを獲得するのに役立ち得る。拡大画像の必要性を除去するために、車両全体が存在する画像の関連のある産物が作成されてもよい。部分について特定の拡大画像を獲得しなければ確実性が低い場合にはそれらを獲得するために、ユーザへのリアルタイムの対話型フィードバックが実施されてもよい。ステップ2は、各部分について「見えない」/「損傷なし」/「修理」/「交換」ラベルを予測することによって前述のステップ1と組み合わされてもよい。
【0080】
2.5.畳み込みニューラルネットワークおよび予測型アナリティクスにより、関連した内部部分について「損傷なし」/「修理」/「交換」ラベルを予測する。内部損傷を正確に予測することは難しく、人間の専門の評価者でさえ苦労する場合がある。良好な結果を可能にするため、テレマティックスデータが、どの内部の電子部品が故障しているか/動作しているかということを決定するために、および予測型アナリティクス回帰(例えば、加速度計データ)に付加するため、車両から提供されてもよい。
【0081】
3.例えば、予測により、または平均をとることによって、各労働動作を実施するための労働時間を獲得する。このステップはまた、畳み込みニューラルネットワークを伴ってもよい。労働時間それ自体ではなく損傷の深刻度を予測することが好ましい場合がある。労働時間データは、第三者から得てもよい。平均時間が使用される場合、平均時間の調節は、車両のモデルタイプ、すべての損傷部分のセット、損傷の深刻度などの1つまたは複数の容易に観察可能なパラメータに応じて行われてもよい。
【0082】
4.各部品を交換するための部品価格&労働賃金を獲得する。価格および賃金は、ルックアップにより、または平均値をとることによって獲得されてもよい。価格および賃金をルックアップするためには、API呼び出しが、例えば、保険業者、第三者、または関連修理店のデータベースに対して行われてもよい。平均値は、ルックアップにより獲得されてもよく、平均価格または賃金が使用される場合、その平均価格または賃金の調節は、モデルタイプ、すべての損傷部分のセット、損傷の深刻度、過失/無過失などの1つまたは複数の観察可能または入手可能なパラメータに応じて行われてもよい。
【0083】
5.価格、賃金、時間を加算および乗算することによって、修理見積もりを計算する。修理見積もりの事後分布を獲得するために、修理見積もりの不確実性もまたモデリングされ得る。例えば、総修理費の95%信頼区間、または車両が廃車にされる確率が提供されてもよい。修理見積もりに対する信頼が不十分である場合には、その支払い請求は、人間へ委任されてもよい。
【0084】
この手順によって、修理見積もりは、保険契約者によって、例えばスマートフォンで撮影された画像から、最初の損害発生通知の際に生成され得る。これは、車両への損傷の発生のほぼ直後に支払い請求の処理を可能にし得る。それは、例えば、モバイルアプリにより、以下の迅速な選択も可能にし得る。
・損傷車両が全損である場合は、新しい車両
・大きな修理が必要な場合は、代車
・大きな修理が必要な場合は、都合よい能力および価格の修理店
・大きな修理が必要な場合は、都合よいサプライヤからの早期部品調達のための代替部品
・軽い損傷が発生した場合には(例えば、フロントガラスの傷の修理)、オンサイト修理
最初の損害発生通知よりも後の時点で、例えば警察官または救急隊員などの公的サービスが立ち去った後、または車両ボディ取扱店もしくは他の専門施設において、修理見積もりのために画像が供給され得る。修理見積もりの出力事後分布は、例えば、修理見積もりの95%信頼区間、または廃車の確率のよりよい見通しをつけるために生成され得る。修理見積もりプロセスは、例えば、モデルによって得られた見積もりが低い信頼性しか有しない場合、または微妙なケースの場合には、見積もりを人間のオペレータに引き渡すことによって、機械/人間によりデュアル生成され得る。保険契約者以外の関係者が、画像を撮影することができる(例えば、損傷車両の同乗者、事故に関与した相手方、警察官、救急車/救急隊員、損害査定人/評価者、保険業者代理人、ブローカ、事務弁護士、修理屋従業員)。修理見積もりのために提供された画像は、カメラまたは他の写真デバイスからのものであってよい。支払い請求の意欲を妨げるために超過値および/または予期される保険料の増額などの他の関連情報が、保険契約者に提供され得る。
【0085】
上記のように修理見積もりを実施することによって、ここでは、保険業者および保険契約者の両者がいくつかの利益を得ることができる。例えば、保険業者は、以下のことができる。
・支払い請求を管理するための管理費を低減する。
・適切な保険料増額の正確な概算または少なくとも良好な概算を提供することによって、支払い請求率(損害率)を低減する。
・素早く処理すること、および高額なけがの支払い請求の機会を減少させることによって支払い請求額を低減する。
・(特定の国では)保険契約者を管理良好な修理チェーンに直接送ることによって、無過失の支払い請求額を低減する。
・稼働時間を減少させる。
・顧客維持を増大させる。
・潜在顧客に保険業者を切り替える動機を与える。
【0086】
保険契約者は、優れた顧客サービスを得ることができ、また常連客に対して入札するサプライヤを活用することができる。特定の部品サプライヤは、優先サプライヤステータスから恩恵を得ることができる。車両修理業者およびボディ取扱店は、見積もりを作成するのに時間を費やすことを避けることができる。
【0087】
上記のステップでは、畳み込みニューラルネットワークが用いられる。多画像クエリ(multi-image queries)を収容することができるマルチインスタンス学習(MIL)畳み込みニューラルネットワークは、単一画像クエリ用の畳み込みニューラルネットワークよりも著しく良好に働く場合がある。複数の画像は、特に、角度、照明、オクルージョン、状況の欠如、不十分な解像度などからの画像ノイズを除去するのを助け得る。分類の場合、これは、クラスが単一画像を条件として出力される、従来の画像分類とは異なる。衝突修理見積もりの状況においては、多くの場合、単一画像内に、修理見積もり構成要素を出力するのに必要なすべての情報を撮影することは不可能であり得る。例において、後部バンパが修理を必要とするという事実は、損傷の拡大画像を撮影することによってのみ認識され得、拡大画像は、写真撮影されているのが後部バンパの一部であることを確認するのに必要とされる状況情報を失う。例における複数の画像内の情報を使用する機械学習モデルを訓練することによって、機械学習モデルは、後部バンパに修理の必要性があることを出力することができる。多画像クエリを収容することができる畳み込みニューラルネットワークアーキテクチャでは、畳み込みニューラルネットワーク内に、画像にわたってプーリングするレイヤが提供される。最大プーリング、平均プーリング、中間プーリング、または学習プーリングが適用され得る。より大きな簡便性のために、単一画像畳み込みニューラルネットワークが用いられてもよい。
【0088】
これより、損傷部分のセットを認識すること、および「修理」/「交換」ラベルを予測することという、上記のように修理見積もりを生成するステップ1および2を達成することができるモデルを生成する手順をより詳細に説明する。これは、上記のような半自動ラベル付けによりラベル付け問題を解決することによって本質的に達成される。この手順は、認識/診断されるべき車両部分ごとのラベル付けされていない車両画像を含むデータセットに適用される。
【0089】
A.無関係の画像を削除する。無関係のデータを削除することによって、データはより容易に提示可能になる。
【0090】
1.事前訓練されたモデル(上により詳細に説明されるような)を用いて目標データセットの特徴を抽出する。
【0091】
2.データがどのようにモデリングされるか(上記のようなtSNEのGUIプロット)をユーザに提示する。これにより、無関係のクラスタが意味的に異なることから、ユーザが無関係のクラスタを容易に特定することを可能にする。
【0092】
3.無関係のクラスタのユーザ選択(または承認)を受信し、データセットから対応する画像を削除する。
【0093】
4.さらなる無関係の画像がもはや削除されなくなるまで繰り返す。
【0094】
B.「部分が見えない」、「部分が損傷を受けていない」「部分が損傷を受けている」の分類子を作る。
【0095】
1.モデルおよび上のステップAにおいて生成されるような目標データを用いて目標データセットの特徴を抽出する。
【0096】
2.データがどのようにモデリングされるか(上記のようなtSNEのGUIプロット)をユーザに提示する。これにより、ユーザが偏りの大きいクラスタを特定し、適切な場合にはそれらにラベル付けすることを可能にする。
【0097】
- 特徴空間の領域が探索されない場合、ユーザがまだ調べていないデータのサブセットがどのようにモデリングされるかをユーザに提示する。ユーザが、そのような情報を探求してもよく、または能動的学習アルゴリズムが、レビューの領域を特定してユーザに提供するために使用され得る。
【0098】
- 偏りのないクラスタの場合、類似性検索を用いた閲覧およびラベル付けのために画像をユーザに提供する。
【0099】
・類似性検索は、共通ラベルを有する画像の迅速な特定をもたらすことができる。
【0100】
・ユーザは、モデルが現実の車両損傷の可能性を正しく表すことを確実にするため、サブクラスを有するクラス階層(およびおそらくは密度も)の予備知識を有する(例えば、特定のタイプの修理可能な左前フェンダー損傷が現実において発生し得る場合、モデルは、そのようなケースを特定することができる必要がある)。
【0101】
・特定された特徴が好適にクラス階層のもつれを解きほぐさない場合、高いユーザ監視が必要とされる場合がある。
【0102】
・ユーザが利用可能な確立されたクラス階層を有しない場合、ユーザは、閲覧およびデータセットからの学習によって、その場限りでサブクラスを構築することができる。
【0103】
・クラスタごと、ページごとに分布が生成される。突出したケースに達した場合、ユーザは、それらのケースをより長い間思案することができ、また類似性検索によりそれらを探索することができる。
【0104】
3.ユーザラベル付け(またはラベル検証)を受信し、データセットを更新する。
【0105】
4.モデルを訓練する。部分分類(または回帰)が満足のいくものでない場合、十分なデータおよびモデル品質が達成されるまで、検証済み/修正済みのラベル付けを用いてステップ2からサイクルを繰り返す。
【0106】
5.特徴が判別可能でなくなったら(例えば、クラスタの内容のばらつきが小さいことが分かり、ラベル編集がより微妙な視覚パターンの問題になる)、微調整をする。順番にサイクルに取りかかるのではなく、微調整はまた、先行サイクルの間に挟まれ得るか、または先行サイクルと組み合わされ得る。
【0107】
6.目標データセットの特徴を抽出する。
【0108】
7.データがどのようにモデリングされるかをユーザに提示する。画像は、分類(または回帰)出力によってランク付けされて提示され得るため、ユーザは、分類(または回帰)出力を介して閲覧して、モデルが正しく識別したサブクラスはどれか、およびどのサブクラスが正しく認識されていないかを理解することができる。ユーザは、類似性検索により、どのサブクラスが正しく認識されていないかに応じた学習の次のステップに焦点を合わせることができる。提案された次の学習ステップは、正しく認識されていないサブクラスの閲覧および特定を自動化することができる能動的学習技術によって、ユーザに提供され得る。
【0109】
8.ユーザからガイダンスを受信し、それに応じてデータセットを更新する。
【0110】
9.モデルを訓練する。モデル正確性が満足のいくものでない場合、十分なデータおよびモデル品質が達成されるまで、検証済み/修正済みのラベル付けを用いてステップ6からサイクルを繰り返す。
【0111】
C.「修理部分」「交換部分」分類子を作る(目標データセットは、部分的に誤ってラベル付けされた画像を含むことがある)。
【0112】
1.特定の損傷部分画像を適切なアクションと関連付けるcsv/txtファイルから修理/交換メタデータを抽出する。
【0113】
2.修理/交換を、「損傷を受けた部分」とラベル付けされた部分に割り当てる。
【0114】
3.更新された目標データセットを用いてモデルを訓練し、データセットの特徴を抽出する。
【0115】
4.データがどのようにモデリングされるか(上記のようなtSNEのGUIプロット)をユーザに提示する。これにより、ユーザが偏りの大きいクラスタを特定し、適切な場合にはそれらにラベル付けすることを可能にする。
【0116】
- 偏りのないクラスタの場合、上のステップB.4により詳細に説明されるように、類似性検索を用いた閲覧およびラベル付けのために画像をユーザに提供する。
【0117】
5.ユーザラベル付け(またはラベル検証)を受信し、データセットを更新する。
【0118】
6.モデルを訓練する。部分分類(または回帰)が満足のいくものでない場合、モデル正確性が満足のいくものになるまで、検証済み/修正済みのラベル付けを用いてステップ4からサイクルを繰り返す。
【0119】
D.ステップBおよびCからのラベル付けされたデータを組み合わせて、単一の4クラス分類子(「見ることができない部分」、「損傷を受けていない部分」、「修理部分」、「交換部分」)を訓練する。
【0120】
E.訓練されたモデルの正確性を測定する。このために、無作為の検定データセットが必要とされる。検定データセットを獲得するのに好ましい技術は、フルデータセットから無作為標本を取り出し、次いでユーザに検定データセットのすべての画像を閲覧させ、すべてのラベルを正しく割り当てさせることである。半自動ラベル付けから何らかの支援が得られる場合があるが、検定データセットの全画像の正しいラベル付けは、ユーザによって検証されなければならない。
【0121】
これより、内部損傷予測の応用をより詳細に説明する。内部損傷予測は、例えば、回帰モデルなどの予測型アナリティクスとともに実施され得る。損傷車両の画像は、内部部分の直接観察を可能にしない。
【0122】
A.修理見積もりを予測する:修理費を回帰させる。
【0123】
1.画像の予測的能力の指標を決定する:回帰させるものを徐々に減少させて修理の総費用を回帰させる。実践では測定コストが高いリグレッサが概算され、除去され得る方法は以下の通りである。
【0124】
- ほんの少しの部分のステータスを記録および検討する。総費用の正確な見積もりを生成することが可能であり得る。回帰モデルから省かれ得る部分の数が分析される。
【0125】
- 場合によっては、車両の内部部分の画像を記録および検討し(例えばボンネットを開けることによって)、さらには特定の内部部分を見るために特定の部分を取り除く。車両の外観の画像のみを記録および検討すれば十分な場合がある。回帰モデルから省かれ得る内部部分の数が分析される。
【0126】
- 労働動作(修理、交換、何もしない)を決定するために、ある部分の損傷の程度を検討する。修理/交換分類子(上記のように半自動的にラベル付けされたデータ上で訓練される)の出力がこれに供給され得る。
【0127】
- 部品価格決定を検討する:例えば、正確な当初の設備部分価格、現在/過去の平均価格、サッチャム価格を検討する。
【0128】
- 過失/無過失の支払い請求であるかどうかを検討する。
【0129】
- 総労働費用を評価する:例えば、正確な労働賃金、平均労働賃金、または過失/無過失の労働賃金を参考にし、また、例えば、各労働動作に対する正確な労働時間、平均労働時間、またはサッチャム労働時間を参考にする。
【0130】
- 自動車タイプ、走行可能距離などの他のメタデータを検討する。
【0131】
- 予測の感度を評価する(x%分類誤差=>y%費用予測誤差)。
【0132】
- 一般的に予期される誤差(例えば、6%)が、損傷のタイプ、見積もりを行う会社などのメタデータフィールドによって予測され得るかどうかを検討する。
【0133】
- ルックアップから獲得可能な労働のルールベースシーケンスを検討する。
【0134】
2.画像の予測的能力を評価する。
【0135】
- 上からトップの回帰モデルを取り出し、特定の地上検証データの値を畳み込みニューラルネットワーク結果と置き換える:目に見える部分についての「修理」/「交換」ラベルを畳み込みニューラルネットワークモデルからの等価の予測と置き換える。この方法では、分類出力が回帰へと流れる。回帰パラメータは、畳み込みニューラルネットワーク出力に合わせて微調整されてもよい。回帰モデルから省かれ得る部分の数が分析されると、検討される部分の数が減少する。
【0136】
- 畳み込みニューラルネットワークを訓練して、画像上に直接回帰させるように回帰を実施する。総費用は、画像およびすべての他の観測量上に回帰される。予測される修理費の誤差が、反映される。
【0137】
B.全損を予測する:廃車を回帰させる。上のステップAについて実施されるステップ(修理費を回帰させる)は、修理費を払って損傷車両を修理する代わりに損傷車両を廃車にするかどうかを示すバイナリインジケータを回帰させるように適合される。
【0138】
上記のプロセスにおいて、ステップのシーケンスは様々であり得る。損傷部分の画像では、バイナリの修理/交換決定よりも多くの情報が利用可能である。したがって、修理費を画像に回帰させることによって、画像のないモデルと比較して正確性を高めることができる。
【0139】
修理見積もりの実施は、以下のようなさらなる特徴を含んでもよい。
・画像の不正および他の不正を防止および検出するための特徴
・誰の過失であるかを決定する特徴、および/または
・保険業者による処理のため、相手方の自動車の画像および/または衝突に関与した所有物を撮影および分析するための特徴
本発明は、単に例としてのみ上に説明されており、詳細事項の変更が本発明の範囲内で行われ得るということを理解されたい。
【0140】
本明細書、ならびに(適切な場合には)請求項および図面に開示される各特徴は、独立して、または任意の適切な組み合わせで提供されてもよい。
【0141】
請求項内に登場する参照番号は、例証のためのみであり、特許請求の範囲に対して制限を及ぼさないものとする。