特開2024-86791 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ズークス　インコーポレイテッドの特許一覧

特開2024-86791機械学習モデルの出力から推論されるインスタンスセグメンテーション

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4A
4B
4C
4D
5
6A
6B
7A
7B
8A
8B
8C
9A
9B
9C
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024086791

(43)【公開日】2024-06-28

(54)【発明の名称】機械学習モデルの出力から推論されるインスタンスセグメンテーション

(51)【国際特許分類】

G06T 7/00 20170101AFI20240621BHJP

【ＦＩ】

G06T7/00 350B

【審査請求】有

【請求項の数】19

【出願形態】ＯＬ

(21)【出願番号】P 2024060823

(22)【出願日】2024-04-04

(62)【分割の表示】P 2020570843の分割

【原出願日】2019-06-19

(31)【優先権主張番号】16/013,729

(32)【優先日】2018-06-20

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】16/013,748

(32)【優先日】2018-06-20

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】16/013,764

(32)【優先日】2018-06-20

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】518156417

【氏名又は名称】ズークスインコーポレイテッド

(74)【代理人】

【識別番号】110001243

【氏名又は名称】弁理士法人谷・阿部特許事務所

(72)【発明者】

【氏名】サラタリク

(72)【発明者】

【氏名】ジェームズウィリアムベイジーフィルビン

(72)【発明者】

【氏名】クラタースゴエル

(57)【要約】

【課題】ＭＬモデルをトレーニングするための改良された技法を提供する。
【解決手段】ＭＬモデルをトレーニングすることは、エグザンプルのサブセットに基づく。特に、トレーニングは、オブジェクトを表す画像の領域に関連付けられたリファレンスリージョンを特定し、第１のバウンディングボックスに関連付けられた第１の信頼スコアに少なくとも部分的に基づいて、エグザンプルのサブセットにおける包含のために第１のハードエグザンプルを特定することを含む。場合によっては、第１の信頼スコアおよび第１のバウンディングボックスは、特徴マップの第１の部分に関連付けられる。次に、トレーニングは、リファレンスリージョンに対する第１のバウンディングボックスの第１のアライメント度が、しきい値のアライメント度の上であることを決定し、応えて、第１のハードエグザンプルを第２のハードエグザンプルと取り替えることを含む。
【選択図】図６Ａ

【特許請求の範囲】

【請求項1】

システムであって、
１つまたは複数のプロセッサーと、
前記１つまたは複数のプロセッサーによって実行可能な命令を格納する１つまたは複数のコンピューター読取り可能媒体と
を備え、前記命令は、実行されると、前記システムに、
第１のスケールを有する画像を受信することと、
サイズの第１の範囲内のサイズを有する関心のリージョン（ＲＯＩ）を出力するようにトレーニングされた第１の機械学習（ＭＬ）モデルに画像を提供することであって、
前記第１のＭＬモデルは、
前記第１のＭＬモデルをトレーニングすることであって、前記トレーニングは、
前記第１のＭＬモデルへの入力として、リファレンスリージョンによって定義された領域に関連付けられたテストオブジェクトを含むテスト画像を提供することと、
前記第１のＭＬモデルによって、前記テスト画像に少なくとも部分的に基づいて、複数のＲＯＩを決定することと
を含む、こと、
前記リファレンスリージョンによって定義された前記領域のうちの領域に対し前記複数のＲＯＩのアライメント度を決定すること、および
しきい値のアライメント度以上の前記アライメント度の部分に対応するオブジェクトサイズのスパンを識別することに少なくとも部分的に基づいて、サイズの前記第１の範囲を決定すること
に少なくとも部分的に基づいて、サイズの前記第１の範囲内の前記サイズを有する前記ＲＯＩを出力するようにトレーニングされる、ことと、
前記第１のＭＬモデルから、第１のオブジェクトの少なくとも一部を表す前記画像の第１のリージョンを示す第１のＲＯＩを受信することであって、前記第１のＲＯＩは、サイズの前記第１の範囲内の第１のサイズを有する、ことと、
第２のスケールに少なくとも部分的に基づいて、スケーリングされた画像として前記画像をスケーリングすることであって、前記スケーリングされた画像と前記画像とは異なったサイズである、ことと、
サイズの第２の範囲内のサイズを有するＲＯＩを出力するようにトレーニングされた第２のＭＬモデルに、前記スケーリングされた画像を提供することであって、サイズの前記第１の範囲とサイズの前記第２の範囲とは互いに異なっている、ことと、
前記第２のＭＬモデルから、第２のオブジェクトの少なくとも一部を表す前記画像の第２のリージョンを示す第２のＲＯＩを受信することであって、前記第２のＲＯＩは、サイズの前記第２の範囲内の第２のサイズを有する、ことと
を含む動作を行わせることを特徴とするシステム。

【請求項2】

前記画像は前記第１のＭＬモデルに提供され、前記スケーリングされた画像は実質的に同時に前記第２のＭＬモデルに提供されることを特徴とする請求項１に記載のシステム。

【請求項3】

前記第１のＭＬモデルおよび前記第２のＭＬモデルは、同一のＭＬモデルであることを特徴とする請求項１に記載のシステム。

【請求項4】

前記動作は、
前記第１のＭＬモデルへの入力として、異なったサイズのオブジェクトを含むトレーニング画像の第１のバッチを提供することと、
前記オブジェクトに関連付けられたグランドトゥルースに少なくとも部分的に基づいて、ＲＯＩサイズの関数として前記第１のＭＬモデルの正確度を決定することと、
しきい値の正確度以上の正確度に対応するＲＯＩサイズの範囲を識別することに少なくとも部分的に基づいて、サイズの前記第１の範囲を決定することと
に少なくとも部分的に基づいて、前記第１のＭＬモデルに対しサイズの前記第１の範囲を決定すること
をさらに含むことを特徴とする請求項１に記載のシステム。

【請求項5】

第１のスケーリングされた画像と第２のスケーリングされた画像とを受信することであって、前記第１のスケーリングされた画像と前記第２のスケーリングされた画像とは、同一の画像の２つの異なったサイズのバージョンである、ことと、
サイズの第１の範囲内のサイズを有する関心のリージョン（ＲＯＩ）を出力するようにトレーニングされた第１の機械学習（ＭＬ）モデルへの第１の入力として、前記第１のスケーリングされた画像を提供するであって、
前記第１のＭＬモデルは、
前記第１のＭＬモデルをトレーニングすることであって、前記トレーニングは、
前記第１のＭＬモデルへの入力として、リファレンスリージョンによって定義された領域に関連付けられたテストオブジェクトを含むテスト画像を提供することと、
前記第１のＭＬモデルによって、前記テスト画像に少なくとも部分的に基づいて、複数のＲＯＩを決定することと
を含む、こと、
前記リファレンスリージョンによって定義された前記領域のうちの領域に対し前記複数のＲＯＩのアライメント度を決定すること、および
しきい値のアライメント度以上の前記アライメント度の部分に対応するオブジェクトサイズのスパンを識別することに少なくとも部分的に基づいて、サイズの前記第１の範囲を決定すること
に少なくとも部分的に基づいて、サイズの前記第１の範囲内の前記サイズを有する前記ＲＯＩを出力するようにトレーニングされる、ことと、
前記第１のＭＬモデルから第１の出力として、サイズの前記第１の範囲内のサイズを有する１つまたは複数の第１のＲＯＩを受信することと、
サイズの第２の範囲内のサイズを有するＲＯＩを出力するようにトレーニングされた第２のＭＬモデルへの第２の入力として、前記第２のスケーリングされた画像を提供することであって、サイズの前記第１の範囲とサイズの前記第２の範囲とは互いに異なる、ことと、
前記第２のＭＬモデルから第２の出力として、サイズの前記第２の範囲内のサイズを有する１つまたは複数の第２のＲＯＩを受信することと
を備えることを特徴とするコンピューター実装方法。

【請求項6】

前記画像は、第１のオブジェクトの表現と第２のオブジェクトの表現とを含み、
前記コンピューター実装方法は、
前記第１のＭＬモデルによって、前記第１のスケーリングされた画像に少なくとも部分的に基づいて、前記第１のオブジェクトを表す第１のＲＯＩと前記第２のオブジェクトを表す第２のＲＯＩとを決定することと、
前記第２のＭＬモデルによって、前記第２のスケーリングされた画像に少なくとも部分的に基づいて、前記第１のオブジェクトを表す第３のＲＯＩと前記第２のオブジェクトを表す第４のＲＯＩを決定することと
をさらに備える
ことを特徴とする請求項５に記載のコンピューター実装方法。

【請求項7】

前記第１のＲＯＩは、サイズの前記第１の範囲外の第１のサイズを有し、
前記第２のＲＯＩは、サイズの前記第１の範囲内の第２のサイズを有し、
前記第３のＲＯＩは、サイズの前記第２の範囲外の第３のサイズを有し、
前記第４のＲＯＩは、サイズの前記第２の範囲内の第４のサイズを有し、
前記第１のＭＬモデルは、前記第１のＲＯＩを捨て、前記第２のＲＯＩを出力し、
前記第２のＭＬモデルは、前記第４のＲＯＩを捨て、前記第３のＲＯＩを出力する
ことを特徴とする請求項６に記載のコンピューター実装方法。

【請求項8】

第１のスケールに少なくとも部分的に基づいて、前記画像をスケーリングして前記第１のスケーリングされた画像を生成することと、
第２のスケールに少なくとも部分的に基づいて、前記画像をスケーリングして前記第２のスケーリングされた画像を生成することと
をさらに備えることを特徴とする請求項５に記載のコンピューター実装方法。

【請求項9】

前記第１のスケーリングされた画像は前記第１のＭＬモデルに提供され、前記第２のスケーリングされた画像は実質的に同時に前記第２のＭＬモデルに提供されることを特徴とする請求項５に記載のコンピューター実装方法。

【請求項10】

前記１つまたは複数の第１のＲＯＩのうちの第１のＲＯＩに関連付けられた正確度に少なくとも部分的に基づいて、サイズの前記第１の範囲を決定することをさらに備え、前記決定することは、
オブジェクトを表す前記画像の領域に関連付けられたグランドトゥルースに少なくとも部分的に基づいて、前記グランドトゥルースによって定義された前記領域に対し前記第１のＲＯＩのアライメント度を決定することと、
しきい値のアライメント度以上である前記１つまたは複数の第１のＲＯＩに対し決定されたアライメント度に対応するＲＯＩサイズの範囲を識別することに少なくとも部分的に基づいて、サイズの前記第１の範囲を決定することと
を含むことを特徴とする請求項５に記載のコンピューター実装方法。

【請求項11】

画像のバッチを受信することであって、画像の前記バッチは、第１のオブジェクト分類に関連付けられる第１の予め定義された数の画像と、第２のオブジェクト分類に関連付けられる第２の予め定義された数の画像とを含む、ことと、
前記第１のＭＬモデルへの入力として画像の前記バッチを提供することに少なくとも部分的に基づいて、前記第１のＭＬモデルをトレーニングすることであって、
前記第１の予め定義された数の画像と前記第２の予め定義された数の画像とは、前記第１のＭＬモデルまたは前記第２のＭＬモデルに関連付けられた信頼スコアに少なくとも部分的に基づく、ことと
をさらに備えることを特徴とする請求項５に記載のコンピューター実装方法。

【請求項12】

実行されると、１つまたは複数のプロセッサーに、
第１のスケーリングされた画像と第２のスケーリングされた画像とを受信することであって、前記第１のスケーリングされた画像と前記第２のスケーリングされた画像とは、画像に対応する、ことと、
サイズの第１の範囲内のサイズを有する関心のリージョン（ＲＯＩ）を出力するようにトレーニングされた第１の機械学習（ＭＬ）モデルへの第１の入力として、前記第１のスケーリングされた画像を提供することであって、
前記第１のＭＬモデルは、
前記第１のＭＬモデルをトレーニングすることであって、前記トレーニングは、
前記第１のＭＬモデルへの入力として、リファレンスリージョンによって定義された領域に関連付けられたテストオブジェクトを含むテスト画像を提供することと、
前記第１のＭＬモデルによって、前記テスト画像に少なくとも部分的に基づいて、複数のＲＯＩを決定することと
を含む、こと、
前記リファレンスリージョンによって定義された前記領域のうちの領域に対し前記複数のＲＯＩのアライメント度を決定すること、および
しきい値のアライメント度以上の前記アライメント度の部分に対応するオブジェクトサイズのスパンを識別することに少なくとも部分的に基づいて、サイズの前記第１の範囲を決定すること
に少なくとも部分的に基づいて、サイズの前記第１の範囲内の前記サイズを有する前記ＲＯＩを出力するようにトレーニングされる、ことと、
前記第１のＭＬモデルから第１の出力として、サイズの前記第１の範囲内のサイズを有する１つまたは複数の第１のＲＯＩを受信することと、
サイズの第２の範囲内のサイズを有するＲＯＩを出力するようにトレーニングされた第２のＭＬモデルへの第２の入力として、前記第２のスケーリングされた画像を提供することであって、サイズの前記第１の範囲とサイズの前記第２の範囲とは互いに異なる、ことと、
前記第２のＭＬモデルから第２の出力として、サイズの前記第２の範囲内のサイズを有する１つまたは複数の第２のＲＯＩを受信することと
を含む動作を行わせる命令のセットを有する非一時的なコンピューター読取り可能媒体。

【請求項13】

前記画像は、第１のオブジェクトの表現と第２のオブジェクトの表現とを含み、
前記動作は、
前記第１のＭＬモデルによって、前記第１のスケーリングされた画像に少なくとも部分的に基づいて、前記第１のオブジェクトを表す第１のＲＯＩと前記第２のオブジェクトを表す第２のＲＯＩとを決定することと、
前記第２のＭＬモデルによって、前記第２のスケーリングされた画像に少なくとも部分的に基づいて、前記第１のオブジェクトを表す第３のＲＯＩと前記第２のオブジェクトを表す第４のＲＯＩを決定することと
をさらに含む
ことを特徴とする請求項１２に記載の非一時的なコンピューター読取り可能媒体。

【請求項14】

【請求項15】

前記動作は、
第１のスケールに少なくとも部分的に基づいて、前記画像をスケーリングして前記第１のスケーリングされた画像を生成することと、
第２のスケールに少なくとも部分的に基づいて、前記画像をスケーリングして前記第２のスケーリングされた画像を生成することと
をさらに含むことを特徴とする請求項１２に記載の非一時的なコンピューター読取り可能媒体。

【請求項16】

前記第１のスケーリングされた画像は前記第１のＭＬモデルに提供され、前記第２のスケーリングされた画像は実質的に同時に前記第２のＭＬモデルに提供されることを特徴とする請求項１２に記載の非一時的なコンピューター読取り可能媒体。

【請求項17】

前記動作は、前記１つまたは複数の第１のＲＯＩのうちの第１のＲＯＩに関連付けられた正確度に少なくとも部分的に基づいて、サイズの前記第１の範囲を決定することをさらに含み、前記決定することは、
オブジェクトを表す前記画像の領域に関連付けられたグランドトゥルースに少なくとも部分的に基づいて、前記グランドトゥルースによって定義された前記領域に対し前記第１のＲＯＩのアライメント度を決定することと、
しきい値のアライメント度以上である前記１つまたは複数の第１のＲＯＩに対し決定されたアライメント度に対応するＲＯＩサイズの範囲を識別することに少なくとも部分的に基づいて、サイズの前記第１の範囲を決定することと
を含むことを特徴とする請求項１２に記載の非一時的なコンピューター読取り可能媒体。

【請求項18】

前記動作は、
画像のバッチを受信することであって、画像の前記バッチは、第１のオブジェクト分類に関連付けられる第１の予め定義された数の画像と、第２のオブジェクト分類に関連付けられる第２の予め定義された数の画像とを含む、ことと、
前記第１のＭＬモデルへの入力として画像の前記バッチを提供することに少なくとも部分的に基づいて、前記第１のＭＬモデルをトレーニングすることであって、
前記第１の予め定義された数の画像と前記第２の予め定義された数の画像とは、前記第１のＭＬモデルまたは前記第２のＭＬモデルに関連付けられた信頼スコアに少なくとも部分的に基づく、ことと
をさらに含むことを特徴とする請求項１２に記載の非一時的なコンピューター読取り可能媒体。

【請求項19】

前記動作は、前記画像におけるオブジェクトの表現とＲＯＩを関連付けることを決定することをさらに含み、前記表現と前記ＲＯＩを関連付けることを決定することは、前記画像における前記表現の寸法、サイズの前記第１の範囲、およびサイズの前記第２の範囲に少なくとも部分的に基づいて、前記第１のＲＯＩまたは前記第２のＲＯＩを用いることを決定することに少なくとも部分的に基づくことを特徴とする請求項１２に記載の非一時的なコンピューター読取り可能媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、インスタンスセグメンテーションに関し、より詳細には、機械学習モデルの出力から推論されるインスタンスセグメンテーションに関する。

【背景技術】

【0002】

本特許出願は、２０１８年６月２０日出願、シリアル番号１６／０１３，７２９の「Machine Learning Techniques」という名称の米国実用特許出願の優先権を主張し、２０１８年６月２０日出願、シリアル番号１６／０１３，７４８の「Restricted Multi-Scale Inference for Machine Learning」という名称の米国実用特許出願の優先権を主張し、および２０１８年６月２０日出願、シリアル番号１６／０１３，７６４の「Instance Segmentation Inferred from Machine-Learning Model Output」という名称の米国実用特許出願の優先権を主張する。出願シリアル番号１６／０１３，７２９、１６／０１３，７４８、１６／０１３，７６４は、参照によって本明細書にて完全に組み入れられる。

【0003】

コンピュータービジョンは、例えば、自律車両を動かすことなどのいくつかのアプリケーションに対してミッションクリティカルである。コンピューターに、人間の視覚を模倣する機能性を装備することは、画像を得て、画像から顕著な部分を特定し、コンピューターがさらなる動作を遂行するのに使用することが可能であるかたちにおいて、コンピューターに対して画像の顕著な部分を表すソフトウェアコンポーネントを構築することを含むことがある。コンピューターに上記の機能を装備するのに構築することが可能であるソフトウェアの１つのかたちは、ＭＬ（機械学習）モデルである。

【0004】

画像の顕著な部分を特定するＭＬモデルをトレーニングする先の試みは、欠陥のあるＭＬモデルに帰着した。例えば、ＭＬモデルトレーニングのいくつかのかたちは、互いに近接するオブジェクト（たとえば、カメラのビューにおける別の歩行者の前を通り過ぎる歩行者）を正確に区別することが不可能であるＭＬモデルに帰着し、１つまたは両方のオブジェクトの無関係なおよび／または不正確なアイデンティフィケーションに帰着する。

【0005】

さらにその上、いくつかのＭＬモデルは、上記の欠陥のあるＭＬモデルよりもより正確なオブジェクトのアイデンティフィケーションを提供するが、リアルタイムのアプリケーションに役立つには、あまりにも多くの計算を必要とする、および／または特定の使用に都合がよくないことがある高価な、専門化したコンピューティング装置を必要とすることがある。例えば、コンピュータービジョン用のＭＬモデルを使用する自律車両は、ビデオストリームを受信することがあり、５０ミリ秒以下ごとに自律車両を動作させる決定をすることが必要とされることがある。オブジェクトを特定する今までに述べたＭＬモデルのいくつかに必要とされる計算時間のために、検出されたオブジェクトは、オブジェクトが検出される時間によって著しく十分に移動していることがあり、従って、オブジェクト検出は、意思決定に対してもはや当てにならない。例えば、今までに述べたＭＬモデルのいくつかは、１００ミリ秒を超える計算時間を必要とすることがある。

【0006】

詳細な説明は、添付の図面を参照して説明される。図面において、参照符号の最も左の数字（複数可）は、参照符号が最初に現れる図面を特定する。異なる図面における同一の参照符号は、同様のまたは同じアイテムを示す。

【図面の簡単な説明】

【0007】

【図1】例示的なシナリオの例示的な空からの眺めを含む例示的なシナリオの例示的な画像を例示する。

【図2A】例示的な画像と、上記の画像がグリッドとしてどのように離散化されるかと、を例示する。

【図2B】例示的なＲＯＩ（region of interest）と、ＲＯＩが生成された画像の部分とを例示する。

【図3】２つの領域を示す例示的なグランドトゥルースと、第２の、より小さい領域を示す例示的なシュリンクしたグランドトゥルースとを例示する。

【図4A】例示的なＲＯＩと、ＲＯＩに関連付けられた例示的な信頼スコアと、ＲＯＩが生成された画像の部分とを例示する。

【図4B】例示的なＲＯＩと、ＲＯＩに関連付けられた例示的な信頼スコアと、ＲＯＩが生成された画像の部分とを例示する。

【図4C】例示的なＲＯＩと、ＲＯＩに関連付けられた例示的な信頼スコアと、ＲＯＩが生成された画像の部分とを例示する。

【図4D】例示的なＲＯＩと、ＲＯＩに関連付けられた例示的な信頼スコアと、ＲＯＩが生成された画像の部分とを例示する。

【図5】グランドトゥルースによって示された領域に関し、グランドトゥルースによって示された領域に対する例示的なＲＯＩのアライメント度に関連付けられた図４Ａ～４Ｄの例示的なＲＯＩを例示する。

【図6A】本明細書にて述べられるノンマキシマム・サプレッション・リプレイスメント（non-maximum suppression replacement）の技法に係るＭＬモデルをトレーニングするための例示的な処理のフロー図を例示する。

【図6B】本明細書にて述べられるノンマキシマム・サプレッション・リプレイスメントの技法に係るＭＬモデルをトレーニングするための例示的な処理のフロー図を例示する。

【図7A】画像（複数可）内の種々のサイズを有するオブジェクトに対する第１のＭＬモデルの例示的な第１の応答曲線を例示する。

【図7B】画像（複数可）内の種々のサイズを有するオブジェクトに対する第２のＭＬモデルの例示的な第２の応答曲線を例示する。

【図8A】本明細書にて述べられる技法に係る、入力として第１のＭＬモデルに提供される例示的な画像と、第１のスケーリングされた画像を受信することに応答する第１のＭＬモデルによって生成されるＲＯＩ（複数可）とを例示する。

【図8B】本明細書にて述べられる技法に係る、第２のスケーリングされた画像としてリスケーリングされ、入力として第１のＭＬモデルに提供される図８Ａの例示的な画像と、第２のスケーリングされた画像を受信することに応答する第１のＭＬモデルによって生成されるＲＯＩ（複数可）とを例示する。

【図8C】本明細書にて述べられる技法に係る、入力として第２のＭＬモデルに提供される図８Ａの例示的な画像と、例示的な画像を受信することに応答する第２のＭＬモデルによって生成されるＲＯＩ（複数可）とを例示する。

【図9A】例示的な画像の一部に対して生成された例示的なＲＯＩを例示する。

【図9B】例示的な画像における同一のオブジェクトに関連付けられた例示的な複数のＲＯＩを例示する。

【図9C】本明細書にて述べられる技法による例示的なオブジェクトセグメンテーションを例示する。

【図10】本明細書にて述べられる技法を実装する例示的なシステムを例示する。

【発明を実施するための形態】

【0008】

本明細書にて述べられる技法は、オブジェクトが、例えば、自律車両の制御などのアプリケーションにおける使用に対してリアルタイムに検出され得るように、オブジェクト検出の正確度を増すことと、正確なオブジェクトのアイデンティフィケーションを取得するための計算時間を減らすこととによって、コンピュータービジョンを改善する。本明細書にて述べられる技法の他のアプリケーションは、例えば、ビデオゲーム、拡張現実感などが予想される。

【0009】

本明細書にて述べられる技法は、画像をＭＬモデルに提供することと、ＭＬモデルから、画像の異なる部分に対する複数のＲＯＩ（region of interest）を受信することとを含むことがある。今までに述べたＲＯＩは、ＭＬモデルが画像においてオブジェクトの存在であると思うものを特定するどんなかたちでもあり得る。例えば、ＲＯＩは、検出されたオブジェクトに関連付けられているとして特定されるピクセルを示すボックス（「バウンディングボックス」）、検出されたオブジェクトに対応するピクセルを含むマスクなどを含むことがある。

【0010】

場合によっては、追加として、または代替えとして、ＭＬモデルは、複数のＲＯＩの各々に関連付けられた信頼スコア（または信頼情報）を出力することがある。例えば、ＭＬモデルは、オブジェクトがあることを画像の一部から検出することがあり、そのオブジェクトが画像の中のどこにあるかを示すＲＯＩを生成することがある。追加として、または代替えとして、ＭＬモデルは、ＭＬモデルが画像において顕著なオブジェクトを実際に特定したことをＭＬモデルがどれぐらい確信しているか、および／またはＲＯＩがオブジェクトにどれぐらい上手くフィットするかを本質的に示す信頼スコアを生成することがある。例えば、信頼スコアは、０と１の間の値であることがあり、ここで、０は、ＭＬモデルが、オブジェクトがＲＯＩに現れていることに全く確信がないという、ＭＬモデルによるインディケーションを表し、１は、ＭＬモデルが、オブジェクトがＲＯＩに現れていることを強く確信していることを示すが、他の順列は想定される。換言すれば、ＭＬモデルは、オブジェクトがあるかもしれないと考えるのはどこかのインディケーションと、ＭＬモデルが、オブジェクトを正しく特定したことをどれぐらい確信しているか、および／またはＲＯＩが、オブジェクトがイメージの中のどこにあるかをどれぐらい上手く指すかを示すスコアとを出力する。

【0011】

本明細書にて述べられる技法のいくつかは、より良いＲＯＩ（オブジェクトが画像の中のどこにあるかをより正確に特定するＲＯＩ）、および／または（たとえば、オブジェクトを含まないＲＯＩに対して０により近いスコアおよび／または顕著なオブジェクトを示すＲＯＩに対して１により近いスコアを生成する）より正確な信頼スコアを生成するために、および上記の正確度のＲＯＩを達成する計算時間を削減するために、ＭＬモデルをトレーニングすることに向けられる。

【0012】

ＭＬモデルは、ニューラルネットワーク、例えば、ランダムフォレストおよび／または向上された決定木のアンサンブル、有向非巡回グラフ（ＤＡＧ）（たとえば、ノードがベイジアンネットワークとして組織される場合）、深層学習アルゴリズム（複数可）など、例えば、ＡＮＮ（人工ニューラルネットワーク）（たとえば、ＲＮＮ（リカレントニューラルネットワーク）、ＲｅｓＮｅｔ（residual neural network））など、ＤＢＮ（deep belief network）、ＤＳＮ（deep stacking network）などを含むことがある。ＭＬモデルをトレーニングするための損失関数は、例えば、オブジェクトを表すとしてグランドトゥルースによって示された画像の領域に対するＲＯＩのアライメント度（degree of alignment）を決定することを含むことがある。場合によっては、グランドトゥルースによって示された領域に対するＲＯＩのアライメント度を決定することは、ＲＯＩがグランドトゥルースにどれぐらい上手く「フィット」するかを決定するための１つのメトリックであるＲＯＩのＩｏＵ（intersection over union）を決定することを含むことがある。グランドトゥルースによって示された領域に対するＲＯＩのフィットに関する他のインディケーションが、使用されることがある。場合によっては、グランドトゥルースは、リファレンスリージョン（reference region）と呼ばれることが可能である。

【0013】

ＭＬモデルをトレーニングすることが、数万、さらに数十万以上の画像をＭＬモデルに提供することと、重みに対する上記の訂正をすることとを含むことがあるので、ＭＬモデルが最も間違っているＲＯＩを特定することは、有利である。今述べたことは、ＭＬモデルをトレーニングするのに費やす時間を大いに減らし、「非常に間違った」ＲＯＩおよび／または信頼スコアを考慮に入れるためにＭＬモデルになされる訂正が、「正しい」ＲＯＩおよび／または信頼スコアのラーニングを強化することによって洗い流されないので、ＭＬモデルの正確度を増すことがある。

【0014】

場合によっては、本明細書にて述べられる技法は、ＭＬモデルをトレーニングするための特定のエグザンプルを選択することを含むことがある。今述べたエグザンプルを選択することは、例えば、信頼スコア（たとえば、最大から最小までの信頼スコア）、および／または信頼スコアにおける誤差（たとえば、ＮＭＳに従って抑制されたＲＯＩに対して、ＲＯＩに関連付けられた信頼スコアの誤差）によって複数のＲＯＩをソートすることと、上位ｎ個のＲＯＩを選ぶこととを含むことがあるＨＥＭ（hard example mining；ハード・イグザンプル・マイニング）を含むことがある。場合によっては、ハード・エグザンプル・マイニングによってエグザンプルを選択することは、最大の信頼スコア（複数可）に関連付けられたＲＯＩを除外することがある。追加として、または代替えとして、技法は、ｎ個のランダムなＲＯＩを選ぶことを含むことがある。場合によっては、数ｎは、画像におけるポジティブエグザンプル（positive example）（たとえば、画像に表されたオブジェクトに対応するポジティブに特定されるＲＯＩ）の数であるように選ばれることがある。

【0015】

しかしながら、いくつかのトレーニングスキーム（例えば、本明細書にてより詳細に説明されるような、全領域ではなくて、オブジェクトを表す領域の一部、たとえば３０％におけるトレーニングなど）において、上位ｎ個のＲＯＩを（信頼スコアによって）単に選択することは、上位ｎ個のＲＯＩのうちの少なくともいくつかが、オブジェクトを正しく特定する傾向が頻繁にあるので、ＭＬモデルトレーニングをゆがめることがある。今述べたエグザンプルが、予期されるＲＯＩを適切に予測するので、上記の選択されるエグザンプルは、ペナルティーが与えられるべきではない。以下に詳細に述べるように、技法は、ＭＬモデルをトレーニングするために選ばれることから上位ｎ個のＲＯＩのいくつかを抑制することと、抑制されたＲＯＩを取り替えるために新しいＲＯＩを選択することとを含むことがある。追加として、または代替えとして、関心のリージョンに合ったが、ハード・ネガティブ・エグザンプル（hard negative example）として選ばれたエグザンプルは、そうではなく、ポジティブエグザンプルとして再配置されることがある。換言すれば、（例えば、本明細書にて説明されるような）ネットワークは、実際のハードエグザンプル（hard example）と、トレーニングに対してペナルティーが与えられるべきではないエグザンプルとの間の違いを明らかにすることがある。それでもなお、少なくともいくつかの例にて、上記の選ばれたエグザンプルは、（実際のハード・ネガティブ・エグザンプルとしてペナルティーを与えるためにか、良いエグザンプルとして改良するためにかいずれかの）バックプロパゲーションを含むことがある。

【0016】

場合によっては、上記の技法は、（１）ＲＯＩによって示されたオブジェクトのためのグランドトゥルースに対する部分に関連付けられたＲＯＩのアライメント度が、しきい値のアライメント度を満たすまたは超える（たとえば、ＲＯＩが、グランドトゥルースによって示された領域に「上手く」フィットする）ことと、（２）ＲＯＩが、グランドトゥルースによって示された領域内にある画像の一部に対して生成されたこととを決定することに少なくとも部分的に基づいて、トレーニングのための画像データの部分を除外することがある。一方、ＲＯＩがグランドトゥルースにどれぐらい上手くフィットしようと、グランドトゥルースの外にある画像の一部から生成されたＲＯＩは、トレーニングのためのサブセット（「トレーニングサブセット」）に含まれ、損失関数においてペナルティーが与えられることがある。同様に、グランドトゥルース内にあるが、「悪い」ＲＯＩ（たとえば、グランドトゥルースに対するＲＯＩのアライメント度が、しきい値のアライメント度よりも小さい）を生成する画像の一部に対して生成されたＲＯＩは、トレーニングサブセットに含まれ、損失関数においてペナルティーが与えられることがある。場合によっては、上位ｎ個のエグザンプルは、トレーニングサブセットにおける包含のために選択されることがあり、技法にしたがって上に述べられたエグザンプルを除外する。本明細書にて述べられる除外／包含のルールを使用する今述べた技法は、本明細書において、改良されたハード・エグザンプル・マイニングの技法と呼ばれる。

【0017】

トレーニングサブセット（除外／包含のルールによって決定される）は、損失関数に提供されることがある。例えば、上記の損失関数は、交差エントロピー損失関数、Ｈｕｂｅｒ損失関数（たとえば、信頼スコアが、関連付けられたＲＯＩによるトレーニング／損失の決定に含まれるエグザンプルにおける信頼スコアに対して）、平均二乗誤差、ＦｏｃａｌＬｏｓｓ関数などを含むことがある。

【0018】

場合によっては、技法は、複数のステージを使用して、ＭＬモデルをトレーニングすることを含むことがある。ステージは、第１のバッチの画像（スケーリングされるかされないか）をＭＬモデルに提供することと、第１のバッチの画像から上の手順に従ってハードエグザンプルを使用して、ＭＬモデルをトレーニングすることとを含むことがある。場合によっては、第１のバッチは、数万または数十万の画像を含むことがある。

【0019】

場合によっては、ＭＬモデルをトレーニングすることは、第１のステージに続く第２のステージを含むことがある。第２のステージの間、ＭＬモデルをトレーニングすることは、ハードエグザンプルを含むトレーニングサブセットを使用することを含むことがある。場合によっては、追加として、第２のステージは、ＦｏｃａｌＬｏｓｓ関数を使用して、ＭＬモデルをトレーニングすることを含むことがある。場合によっては、ＦｏｃａｌＬｏｓｓ関数は、上手く分類された（well-classified）ＲＯＩに対して計算された損失（誤差）が重みを減らされ、下手に分類された（poorly-classified）ＲＯＩに対して計算された損失がより少なく重み付けされるように、交差エントロピー損失関数（またはどんな他の損失関数でも）によって計算された損失を修正することがある。

【0020】

場合によっては、ＭＬモデルの受容野（receptive field）は、ＭＬモデルに、下手な信頼スコアおよび／または誤差値に関連付けられた受容野に対して、広すぎるオブジェクトに対するＲＯＩを生成させることがある。例えば、人間が、鼻が絵画に対して触れている状態で立っていたならば、絵画を確認すること、ましてや絵画における特定のオブジェクトを確認することは、とても困難であろう。今述べたことは、絵画の顕著な部分が、人間の受容野の外にあるからである。

【0021】

同様に、ＭＬモデルは、ＭＬモデルの受容野の外にあるオブジェクト（たとえば、オブジェクトを「見て」、ＭＬモデルが「見る」ものを理解するためにＭＬモデルに対する受容野に入る十分なオブジェクトに対して、大きすぎるオブジェクト）を下手に検出することがある。

【0022】

今述べた問題を矯正するためのいくつかの技法は、ＭＬモデルへの入力として画像を提供することと、サイズ範囲内のオブジェクトを得るためのＭＬモデルを使用することと、続いて画像をダウンスケーリングすることと、以前はサイズ範囲外であったオブジェクトが、（スケーリングされた後に）今やサイズ範囲内に入るようにＭＬモデルを通じて再実行することとを含んでいた。今述べたことは、反復的に繰り返されることがある。画像を小さくスケーリングすることは、スケールダウンされた画像において、より小さく見える大きなオブジェクトを作り、ＭＬモデルの受容野内に入ることを可能にすることに注意する。入力画像のサイズに実質的に同様である受容野によってＭＬモデルをトレーニングすることが可能であることがある一方、そのようなＭＬモデルは、例えば、自動運転における使用に対して、遅い、または十分に応答しないことがある。

【0023】

追加のまたは代替の場合にて、本明細書にて説明される技法は、画像における見かけのオブジェクトサイズを介してオブジェクトを分類する（たとえば、ＲＯＩおよび／または信頼スコアを作り出す）ために、第１のＭＬモデルの正確度を示す第１のＭＬモデルに関連付けられた応答曲線を決定することを含むことがある。場合によっては、今述べた応答曲線を作り出すことは、画像（複数可）における複数のオブジェクトを第１のＭＬモデルに提供することと、第１のＭＬモデルが異なるサイズのオブジェクトをどれぐらい上手く分類するかをトラッキングすることとを含むことがある。技法は、ＲＯＩの正確度を決定し、ＲＯＩの正確度およびサイズ（たとえば、高さ、幅、面積）を関連付けることを含むことがある。少なくとも場合によっては、ＭＬモデルの出力サイズは、入力スケールサイズに基づいた最適領域に基づいて制約されることがある。非限定の例として、入力として６４０×４８０の画像がいるＭＬモデルは、約１００×１００～２００×２００のピクセルサイズを有するＲＯＩを出力するように強いられることがあるが、入力として９４０×９４０の画像がいるＭＬモデルは、約２５０×２５０～３００×３００ピクセルのピクセル寸法を有するＲＯＩを出力するように強いられることがある。

【0024】

これらの正確度／ＲＯＩサイズのペアは、第１のＭＬモデルに対して決定された各ＲＯＩに対して、１つにされることがある。技法は、しきい値の正確度を満たす、または超える正確度に関連付けられたＲＯＩの範囲を特定することを含むことがある。今述べたサイズの範囲は、第１のＭＬモデルが、サイズの範囲のオブジェクトに対して「良い」ＲＯＩを決定することを示すことがある。場合によっては、第１のＭＬモデルは、サイズ範囲内のサイズを有するＲＯＩを出力することがあり、ＭＬモデルによって決定される他のＲＯＩを抑制することがある。

【0025】

場合によっては、第１のバッチの画像は、スケールファクター（たとえば、０．７５、０．５）を使用してスケールダウンされることがあり、スケーリングされた画像のバッチは、入力として、第２のＭＬモデルに提供されることがある。同様に、第２の応答曲線と、第２の範囲のサイズのとは、スケーリングされた画像のバッチに少なくとも部分的に基づいて、第２のＭＬモデルに対して決定されることがある。

【0026】

場合によっては、実行時に、画像は、入力として第１のＭＬモデルに提供されることがあり、画像は、スケーリングされ、入力として第２のＭＬモデルに提供されることがあり、および第１のＭＬモデルによって出力されるＲＯＩは、第１の範囲内のＲＯＩに制限されることがあり、第２のＭＬモデルの出力は、第２の範囲内のＲＯＩに制限されることがある。ＭＬモデルは、異なるＭＬモデルに関連付けられた異なる範囲のＲＯＩがオーバーラップする、および／または互いに接するようにトレーニングされることがあって、オブジェクトサイズのより大きな範囲は、複数のＭＬモデルによって検出されることがある。

【0027】

簡単に言えば、技術は、少なくとも２つのＭＬモデルをトレーニングし、各ＭＬモデルが「良い」ＲＯＩを生成するＲＯＩのサイズの範囲を決定することを含むことがある。そうすれば、画像をＭＬモデルに繰り返し提供すること、出力を受信すること、画像をスケーリングすること、それをＭＬモデルに再提供すること（re-providing）、第２の出力を受信することなどの代わりに、処理は、各ＭＬモデルが、サイズの小さい範囲に対して最も良く応答するようにトレーニングされ、ＲＯＩをその小さい範囲の中に出力するように強いられる場合に、同一の画像のスケーリングされたバージョンを複数のＭＬモデルに提供すること（たとえば、スケーリングされた画像が、同一のアンスケーリングされた画像（unscaled image）のスケーリングされたバージョンである場合に、第１のスケーリングされた画像を第１のＭＬモデルに、第２の画像を第２のＭＬモデルになど提供すること）によって、短くなり、正確度が上げられることがある。一般に、上記の技法は、メモリー要件を減らす（たとえば、ＧＰＵのメモリー要件を減らした）一方、画像におけるオブジェクトを検出する速さおよび性能を改善することがある。

【0028】

さらに、本明細書にて説明される技法は、ＭＬモデルへの入力として画像を提供し、ＭＬモデルからの出力として、画像において検出された物体に関連付けられたＲＯＩと特定のピクセル（または画像の他の部分）を特定するオブジェクトセグメンテーション（たとえば、マスク、輪郭のセット）との両方を受信するための技法を含むことがある。画像を区分する（たとえば、マスク、または直線および／もしくは曲線のセットを出力することによって、たとえば、どのピクセルが、検出されたオブジェクトに対応するかを特定する）ために、第２のＭＬモデルおよび／または第２の動作を必要とする代わりに、本明細書にて述べられる技法は、実質的に同時に（たとえば、技術的なトレランスの範囲内で）、オブジェクトを検出し（たとえば、ＲＯＩを決定し）、画像を区分する。

【0029】

場合によっては、インスタンスセグメンテーション（たとえば、ピクセルベースによりピクセル上の画像を区分すること）のための技法は、ＭＬモデルが、画像の複数の部分に対して、複数のＲＯＩと、関連付けられた複数の信頼スコアとを決定するまで、ＭＬモデルにおいて画像を受信し、画像の一部（たとえば、ピクセル、ピクセルのクラスター）に対するＲＯＩと、関連付けられた信頼スコアとを決定することを含むことがある。場合によっては、ＭＬモデルは、出力のために、最大の信頼スコアに関連付けられたＲＯＩ（「出力ＲＯＩ」）を選択することによって画像を検出することがある。出力ＲＯＩが特定するオブジェクトを表す画像のリージョンを区分するために、技法は、信頼スコアに関連付けられた複数のＲＯＩについてのサブセットが、信頼スコアのしきい値を満たすまたは超える、最大の信頼スコアに関連付けられたＲＯＩと実質的にオーバーラップする、および／または最大の信頼スコアに関するしきい値信頼の範囲内にあることを決定し、（たとえば、ピクセルをマスクに加えることによって、ピクセルを含むように曲線を修正することによって）ＲＯＩが決定された部分から画像のセグメンテーションまでつなげることを含むことがある。

【0030】

違う説明では、（マスクであり得る）インスタンスセグメンテーションにおける画像のデータ（たとえば、ピクセル）を含むかどうかを決めるために、技法は、その特定のピクセル（または特徴マップ（feature map）の部分）に関連付けられたＲＯＩが、代表的なＲＯＩと、それに対応する信頼値とに実質的に類似するかどうかを決定することを含むことがある。少なくとも一例にて、インスタンスは、非最大抑制（非極大抑制とも呼ばれる）の下に抑制されるだろう単一のＲＯＩに対応するすべてのピクセルを含むことがある。

【0031】

場合によっては、オブジェクトに対してインスタンスセグメンテーションを生成するためにＭＬモデルをトレーニングすることは、グランドトゥルースのマスクと、オブジェクトの関連付けられたＲＯＩとに基づいてトレーニングすることを含むことがある。上記の例にて、損失関数は、予め定義された値を超える信頼スコアを有するＲＯＩを生成するために、マスクの外側にある画像の部分にペナルティーを与えるように構成されることがある。換言すれば、画像のピクセル（またはリージョン）の上記ＭＬモデルは、上記のピクセルが、ピクセル（またはリージョン）に関連付けられたオブジェクトのマスクの外側に入るならば、たとえＲＯＩが適切であっても、ＲＯＩを出力すべきではない。本明細書が、ピクセルのマスクを出力することに帰着するインスタンスセグメンテーションを主に述べるが、画像のサブセットを特定するためのどんな適した方法でも（たとえば、点、線、曲線、および／または他のエッジインジケーターのセットを出力すること）、使用されることがあると想定される。

【0032】

例示的なシナリオ
図１Ａは、例示的な画像１００と、例示的な画像１００が生成されることがある例示的なシナリオ１０２の例示的な鳥瞰図とを例示する。例示的なシナリオ１０２は、自律車両１０４と、自律車両１０４と同一の環境（たとえば、例示的なシナリオ１０２の鳥瞰図に描かれている運転中の地面を含むことがある例示的な画像１００に描かれる街区）において動いている３台の他の車両１０６、１０８、および１１０を含むことがある。自律車両１０４は、センサーデータを、自律車両１０４の１つまたは複数のセンサーから受信することがある。自律車両１０４は、自律車両の動きを制御するための軌道を決定するセンサーデータを使用することがある。センサーデータは、例えば、例示的な画像１００などの画像を含むことがある。

【0033】

場合によっては、自律車両１０４は、運転手（または乗員）がいかなる時点においても車両を制御することが期待されない、全行程にすべてのセーフティクリティカルの機能を実行する性能がある車両を記述する、米国連邦道路交通安全局によって発行されるレベル５分類に従って、動作するように構成された自律車両であり得る。しかしながら、他の例において、自律車両１０４は、現在存在するまたは将来開発される他のどんなレベルまたは分類でも有する完全なまたは部分的な自律車両であり得る。さらにその上、場合によっては、説明されるコンピュータービジョンの技法は、自律的ではない車両によっても同様に使用可能であることがある。

【0034】

本明細書にて述べられる技法に従って、自律車両１０４は、自律車両１０４のセンサー１１２から画像を受信することがある、例えば、他の車両１０６、１０８、および１１０など、画像から検出されるオブジェクト（複数可）を検出することがある、および／または画像において検出されたオブジェクトを区分することがある。例えば、自律車両１０４は、他の車両１０６、１０８、１１０、運転可能な地面、交通信号などを特定し、区分することがある。場合によっては、今述べた検出することおよび／または区分することは、自律車両１０４のコンピューティングデバイス（複数可）１１８上において実行している認識エンジン１１６のＭＬモデル１１４に、入力としての画像を提供することによって達成されることがある。

【0035】

場合によっては、認識エンジン１１６は、例えば、ＭＬモデル１１４など、自律車両１０４の環境から収集されたセンサーデータから物体を検出する、特定する、区分する、分類する、および／もしくは追跡するための１つまたは複数のＭＬモデル、ならびに／または他のコンピューター実行可能な命令を含むことがある。場合によっては、自律車両１０４の認識エンジン１１６は、車両１０４の１つまたは複数のセンサー１１２からセンサーデータを受信し、センサーデータから認識データ（perception data）を決定し、ならびにグローバルマップ上の自律車両１０４の位置をローカライズする、１つまたは複数の軌道を決定する、および／またはパスもしくはルートを横切る自律車両１０４の動きを制御するプランナー１２０による使用のために認識データをプランナー１２０に送信する認識エンジンを含むことがあるが、どんな上記の動作でも、種々の他のコンポーネントにおいて行われることがある（たとえば、ローカライゼーションは、示されないが、ローカライゼーションエンジンによって行われることがある）。

【0036】

例えば、認識エンジン１１６は、環境中の物体を検出し、物体（たとえば、乗用車、セミトラック（semi-truck）、ピックアップトラック、人、子供、犬、ボール）を分類することがあり得る。さらに、認識エンジン１１６は、物体のトラック（track）（たとえば、物体に関する履歴の、現在の、および／もしくは予測される進路、位置、速度、ならびに／または加速度）を決定することもある。場合によっては、追加としてまたは代替えとして、認識エンジン１１６は、（車両１０４をローカライズするためにどんなセンサーデータでも使用することがある、絵で示されない）ローカライゼーションエンジンによって決定される自律車両１０４の位置、自律車両１０４の近くにある物体に関係したデータ、車両の目的地を指定するルートデータ、車道の特性（たとえば、自律車両をローカライズするのに有用な様々なセンサーモダリティ（sensor modality）において検出可能な特徴）を特定するグローバルマップデータ、車両の近くに検出された特性（たとえば、建物、木、壁、消火栓、一時停止の標識、および種々のセンサーモダリティにおいて検出可能な他の特徴に関するロケーションならびに／または寸法）を特定するローカルマップデータなどを決定することがある。認識エンジン１１６によって生成されるデータは、「認識データ」と総称されていることがある。認識エンジン１１６が、画像からオブジェクトを特定したらおよび／または区分したら、および／または他の認識データを決定したらすぐに、認識は、オブジェクトの検出および／またはセグメンテーションを含む認識データを、プランナー１２０に提供することがある。

【0037】

場合によっては、プランナー１２０は、自律車両１０４の動きを制御するための軌道を生成するために、特定された、および／または区分されたオブジェクトを含む認識データを使用することがある。例えば、プランナー１２０は、自律車両１０４に対して第１のロケーションから第２のロケーションまでのルートを決定し、実質的に同時に、ルートを横切るために車両を制御する後退ホライズン（receding horizon）技法にしたがって（たとえば、１マイクロ秒、１／２秒）、自律車両１０４の動きを制御するために可能性がある複数の軌道を生成し、自律車両１０４のドライブコンポーネントに送信され得るドライブコントロール信号を生成するのに使用され得る自律車両１０４の軌道として、可能性がある軌道のうちの１つを選択することがある。

【0038】

ＭＬモデルによる例示的なＲＯＩ（REGION OF INTEREST）生成
図２Ａは、出力グリッド（output grid）２００の各セルが画像１００の一部を特定する例示的な画像１００および例示的な出力グリッド２００を例示する。画像２０２の一例の部分は、画像１００の中心の近くに強調（ボールド）される。本明細書にて述べられるような、「画像の一部」は、画像の単一のピクセル、および／または画像のピクセルの集まりを含むことがあることが想定される。場合によっては、機械学習モデルの出力は、特徴マップであり、個々のセルは、特徴マップの一部を表すことがある。上記の特徴マップは、複数のチャネル、モデルによって決定される種々の要素（複数可）（たとえば、信頼スコア、関心のリージョンなど）に関連付けられた各チャネルを有することがある。図２Ａは、「画像の一部」、たとえば、例示的な部分２０２が画像１００のピクセルの集まりを含む例を例示する。特徴マップの一部（たとえば、セル）は、画像の一部に関連付けられることがある。それゆえ、例示的な部分２０２は、例示的な出力グリッド２００の例示的なセル２０２と呼ばれることがある。

【0039】

場合によっては、例示的な出力グリッド２００は、ＭＬモデルによる出力として、例示的な画像１００を離散化するやり方であり得る。例えば、ＭＬモデルは、画像を受信し、出力グリッド２００のセルごとに、１つまたは複数のＲＯＩおよび関連する信頼レベルを出力するように構成されることがある。少なくとも場合によっては、上記の出力グリッド２００は、ｍ×ｎのピクセルの画像に従って、ｍ／４×ｎ／４のセルに離散化されることがある。場合によっては、セルは、４ピクセル×４ピクセルであり得るが、どんな他の離散化でも想定される。場合によっては、上に述べたように、例示的な画像１００は、特徴マップの複数の部分に離散化されることが可能である。すなわち、例は、セルのグリッドに限定されず、種々の実装が本明細書において想定される。

【0040】

場合によっては、ＭＬモデルは、画像の各部分に対して（たとえば、図２Ａの各セルに対して）、ＲＯＩおよび／または信頼スコアを生成することがある。例えば、ＭＬモデルは、例示的な部分２０２に対して、ＲＯＩおよび／または信頼スコアを決定することがある。場合によっては、ＭＬモデルは、画像の一部の境界を越えて延びるＲＯＩの境界を有するＲＯＩを生成することがある。少なくとも場合によっては、各出力セルは、どんな１つまたは複数の分類に対してでも、中心の位置（たとえば、＜ｕ，ｖ＞画像座標の位置）、エクステント（たとえば、幅および／または高さ）、および／または信頼レベルによって示されるＲＯＩと対応することがある。非限定の例として、各セルは、自動車、歩行者、自転車運転者、トラック／バス、交通信号、および／または停止標識の分類の各々に対して、中心、エクステント、および信頼に関連付けられることがある。

【0041】

図２Ｂは、「自動車」の分類に関して、画像の例示的な部分（すなわち、画像におけるセル）、および関連付けられたＲＯＩ（region of interest）を例示する。図２Ｂは、ＲＯＩをバウンディングボックスとして例示するが、オブジェクトを表す画像のリージョンが、そうでなければ（たとえば、マスクによって）示されることがあると理解される。本明細書にて述べられるように、ＭＬモデルは、部分２０４（たとえば、セル２０４）に対するＲＯＩ２０４’、部分２０６に対するＲＯＩ２０６’、および部分２０８に対するＲＯＩ２０８’を決定することがある。場合によっては、ＭＬモデルは、ＲＯＩ２０４’に関連する第１の信頼スコア、ＲＯＩ０６’に関連する第２の信頼スコア、およびＲＯＩ２０８’に関連する第３の信頼スコアを決定することがある。信頼スコアは、関連するＲＯＩが、オブジェクト（ここでは、自動車）を表す画像のリージョンを正確に表す確率を示すことがある。ＲＯＩ２０４’、２０６’、および２０８’の各々は、それぞれ、別個のオブジェクト、すなわち、車両１０６、１０８、および１１０を表す画像の別個のリージョンを特定する。場合によっては、ＲＯＩ２０４’は、ＭＬモデルによって、画像１００における車両１０６の「検出」と考えられることがある。

【0042】

例示的なＭＬ（機械学習）モデルトレーニング技法
図３は、例示的な画像１００の部分３００、第１のオブジェクト（すなわち、車両１０８）を表す画像の第１の領域を特定するグランドトゥルース３０２、第２のオブジェクト（すなわち、車両１１０）を表す画像の第２の領域を特定する例示的なグランドトゥルース３０４、ならびに２つのスケーリングされたグランドトゥルース３０２’および３０４’を例示する。例示的なスケーリングされたグランドトゥルース３０２’は、グランドトゥルース３０２の中央の３０％（「中央の３０％のボックス３０２」）を定義する領域であり、例示的なスケーリングされたグランドトゥルース３０４’は、グランドトゥルース３０４の中央の３０％を定義する領域である。もちろん、例示的なスケーリングされたグランドトゥルース３０２’が、グランドトゥルース３０２の中央の３０％に対応するとして説明されるが、どんな百分率でも本明細書にて想定される。

【0043】

次の議論は、ＭＬモデルをトレーニングするための技法と、ＭＬモデルが、ＲＯＩを、および／または、より正確である信頼スコアを生成するために、ＭＬモデルをトレーニングするやり方とに関するものである。場合によっては、一般に、図３～６は、トレーニングの間、ＭＬモデルの種々の出力にペナルティーを与えるやり方を決定するための技法を例示する。

【0044】

図３に例示されるように、ＭＬモデルは、画像１００においてオーバーラップするとき（すなわち、オクルージョン）に現れるオブジェクト間の、例えば、車両１１０と１１２との間の違いを明らかにするのを可能にするような、今述べたスケーリングされた３０％のリージョンを使用するだけでトレーニングされることがある。部分的に、グランドトゥルース３０２がグランドトゥルース３０４のオーバーラップをオクルージョンするので、上に述べた技法に従ってＭＬモデルをトレーニングすることは、画像の一部に関連されるべきオブジェクト（すなわち、出力するＲＯＩ）を決めるときのあいまいさを避けることがあることに注意する。

【0045】

図４Ａ～４Ｄは、例示的なＲＯＩと、ＲＯＩに関連付けられた例示的な信頼スコアと、ＲＯＩが生成された画像の部分とを例示する。

【0046】

図４Ａは、例えば、「自動車」などの特定の分類について、ＭＬモデルが部分４００に対して決定した例示的なＲＯＩ４００’と、ＭＬモデルがＲＯＩ４００’に対して決定した信頼スコア４０２とを例示する。場合によっては、信頼スコアは、ＭＬモデルによって決定される、信頼スコアが関連付けられているＲＯＩが画像におけるオブジェクトを正確に特定する確率を示す。例えば、信頼スコアは、ＲＯＩがオブジェクトを完全に表すピクセルを含む領域にフィットする確率を示すことがある（たとえば、検出されたオブジェクト以外のものを表す、ＲＯＩによって特定されるピクセルがなく、ＲＯＩのエッジは、オブジェクトの境界と交わることなしにオブジェクトのエッジを囲み、オブジェクトの境界とＲＯＩの境界との間の最小量の空間にする）。

【0047】

図４Ａにおいて描かれる例にて、信頼スコア４０２は、「０．９７」である。場合によっては、ＭＬモデルは、０．００と１．００との間の信頼スコアを決定することがあるが、他の値は想定される。今述べた例にて、０．００は、ＭＬモデルが、画像の一部に対して生成したＲＯＩがオブジェクトを特定するとは思わないことを示すことがあり、および／または１．００は、ＭＬモデルが、完ぺきなアライメント度によって、ＲＯＩがオブジェクトを特定するのを完全に確信していることを示すことがある。

【0048】

図４Ｂは、ＭＬモデルが部分４０４に対して決定した例示的なＲＯＩ４０４’と、ＭＬモデルがＲＯＩ４０４’に対して決定した信頼スコア４０６とを例示する。ＲＯＩ４０４’は、それがわずかに小さ過ぎるとして、ＲＯＩ４００’と同様に上手くオブジェクト（すなわち、車両１１０）を表すリージョンに、フィットしていないことに注意する。今述べた例にて、信頼スコア４０６は、ＲＯＩ４０４’が、完ぺきに、またはＲＯＩ４００’と同様に上手く、オブジェクト（すなわち、車両１０８）を表すリージョンにフィットしていないので、少なくとも最大の信頼スコア、信頼スコア４０２よりも正しく低い。さらに、部分４００は、図４Ｂ～４Ｄに対して参照点として示され、これらの図のＲＯＩが、何とかして部分４００に関連付けられることを意図していないのを継続することにも注意する。

【0049】

図４Ｃは、ＭＬモデルが部分４０８に対して決定した例示的なＲＯＩ４０８’と、ＭＬモデルがＲＯＩ４０８’に対して決定した信頼スコア４１０とを例示する。ＲＯＩ４０８’は、それが大き過ぎるとして、上手く車両１０８を表すリージョンにフィットせず、単なる車両１０８よりも多くのオブジェクトを囲んでいることに注意する。平凡なフィットのために適切に、より低かった信頼スコア４０６とは異なり、信頼スコア４１０は、車両１０８を表す画像のリージョンと比べて、ＲＯＩ４０８’の下手なフィットに対して高すぎると考えられることがある０．９４の値を反映する。

【0050】

図４Ｄは、ＭＬモデルが部分４１２に対して決定した例示的なＲＯＩ４１２’と、ＭＬモデルがＲＯＩ４１２’に対して決定した信頼スコア４１４とを例示する。ＲＯＩ４１２’は、それが非常に小さ過ぎるとして、上手くオブジェクト（すなわち、車両１０８）を表すリージョンに、フィットしていないことに注意する。信頼スコア４１４は、車両１０８を表す画像のリージョンと比べて、ＲＯＩ４１２’の下手なフィットを適切に考えている０．１３の値を反映する。

【0051】

図５は、ＮＭＳ（non-maximum suppression；非最大抑制）の再割り当てに対してリージョンを選択する例を例示する。一般に、画像においてポジティブエグザンプルの疎のために、ＭＬモデルは、より良い推定を出力するために、ポジティブエグザンプルとネガティブエグザンプルとのバランスを使用してトレーニングされることがある。さらに、トレーニングは、「ハード」エグザンプル（すなわち、正しくはないが、正しいことの高信頼を提供するエグザンプル）を組み入れることもある。場合によっては、同じ個数のポジティブエグザンプル、ネガティブエグザンプル、およびハードエグザンプルが、トレーニングのためのネットワークに提供される。少なくとも場合によっては、すべてのセル（画像の一部）の信頼レベルは、ソートされることがあり、誤ったＲＯＩを生成する最高信頼は、ハードエグザンプルとして選択されることがある。図３に関して例示された技法を使用するとき、最高信頼に関連付けられたＲＯＩ内に入るが、中央の３０％の部分ではなかった画像の一部分（たとえば、セル）は、一般に、例えば、「ハードエグザンプル」のようなセルをナイーブに示すことによってペナルティーが与えられることがある（すなわち、ネットワークは、それらが高い信頼レベルを有するが中央の３０％に入らないので、今述べたセルを有するＲＯＩを出力しないように明示的にトレーニングされることがある）。図３に関して説明された技法が違いを明らかにする（より良いＲＯＩを提供する）のを助けることがあるが、これらの部分にナイーブにペナルティーを与えることによってモデルをトレーニングすることは、下手な性能（たとえば、悪い推定）を導くことがある。以下に詳細に説明するように、モデルをインテリジェントにトレーニングすることは、上記のナイーブな仮定を避けることがある。

【0052】

場合によっては、ＭＬモデルは、ハードエグザンプルとして示された画像の一部分（たとえば、セル）が、ＮＭＳの下に抑制されるＲＯＩに関連付けられると決定することがある。換言すれば、モデルは、ハードエグザンプルとして選択されたセルが選択されるべきではなく、別のハードエグザンプルが、真のハードエグザンプルにペナルティーを与えることのために、損失をバックプロパゲーションするために選ばれるべきであると決定することがある。少なくとも場合によっては、良いボックスを出力したが、ハードエグザンプルとして選択されたセルは、代わりに良い（すなわち、損失が、セルに対応する出力を改良するためにバックプロパゲーションされるような）エグザンプルとして再配置されることがある。一般に、上記の処理は、ＮＭＳ再割り当て（NMS reassignment）と呼ばれることがある。ＮＭＳ再割り当ての支配下にあるべきである画像の部分、およびあるべきではない画像の部分に関する種々の例が、図５にて例示される。

【0053】

図５の至る所に、点線によって表された参照ＲＯＩ（グランドトゥルースのＲＯＩ、および／またはＮＭＳ（non-maximum suppression）によって決定されたＲＯＩ）（たとえば、参照５００）と、例示的なＲＯＩのアライメント度とが、参照５００に関して与えられている。例示的なＲＯＩが生成された画像の一部分は、目に見える前後関係に対して各々に再び現れる部分４００を有して、前後関係に対して図５にて再び生成され続ける。場合によっては、生成された複数のＲＯＩのうち、画像におけるオブジェクトに対応することがある出力するＲＯＩを選択するために、ＭＬモデルは、複数のＲＯＩをＮＭＳすることがある、すなわち、ＭＬモデルは、最大の信頼スコアに関連付けられたＲＯＩを決定することがあり、オブジェクトに関連付けられた出力するＲＯＩとして、そのＲＯＩを特定することがある。場合によっては、あるオブジェクト分類の複数のオブジェクトが画像において表される一方、ＭＬモデルは、オーバーラップする（たとえば、しきい値のアライメント度を満たすまたは超える互いに関してアライメント度を有する）ＲＯＩのクラスターを決定することがあり、それによってオブジェクトが、ＲＯＩのクラスターの周りの画像において画像のどこかに表される尤度を示し、およびＲＯＩのクラスターをＮＭＳしてオブジェクトに対する出力ＲＯＩを決定することがある。換言すれば、単一のオブジェクトに関連するＲＯＩを出力することは、オーバーラップする複数のＲＯＩのうち、最大の信頼スコアに関連付けられたＲＯＩを決定することに基づくことがある。ＭＬモデルは、すべてのオブジェクトが特定され、ＮＭＳの支配下になるまで、クラスターを特定することと、クラスターに関してＮＭＳを行うこととを繰り返すことがある。今述べたことは、ＲＯＩが検出される各オブジェクト分類に対してなされることがある。場合によっては、クラスターを特定することは、オーバーラップするＲＯＩを特定することに加えて、信頼スコアのしきい値を超える信頼スコアに関連付けられたＲＯＩを特定することを含むことがある。今述べたことは、ＲＯＩをしきい値化すること（thresholding）と呼ばれることがある。

【0054】

場合によっては、ＭＬモデルをトレーニングするために、ＭＬモデルは、ＲＯＩと参照ＲＯＩ５００との間のアライメント度を決定することがある。場合によっては。アライメント度を決定することは、グランドトゥルースの領域５００に対するＲＯＩのオーバーラップ量および／またはフィット量を反映するメトリックを決定することを含むことがある。場合によっては、今述べたことは、和集合上の積集合を決定することを含むことがあるが、ＭＬモデルによって生成されるＲＯＩのオーバーラップ量／誤差を決定するための他の技法が使用されることがある。

【0055】

今述べた例にて、ＭＬモデルは、例示的なＲＯＩ４００’がグランドトゥルースの領域５００に上手くフィットする、たとえば、例示的なＲＯＩ４００’に関して９８％のアライメント／フィット度（degree of alignment/fit）を示すアライメント度５０２によって意味されることがある。例示的な信頼スコア４０２は、高いアライメント度の観点から、適切に高い。場合によっては、「良い」フィットは、０．７０以上のアライメント度であるように定義されることがある。今述べた値（０．７０）は、しきい値のアライメント度と考えられることがあるが、他の値が、例えば、０．８０、０．５０、および／または０．６０など、使用されることがあると想定される。ここで、エグザンプル４００’は、ＮＭＳ再割り当ての支配下にあるだろう。換言すれば、たとえ４００が中央の３０％の部分ではなくても、それは、「良い」ＲＯＩを生成し、例えば、（ハードエグザンプルとして選択されるならば）ペナルティーが与えられるべきではない。

【0056】

同様に、ＭＬモデルは、ＲＯＩ４０４’が０．９０のアライメント度５０４に関連付けられると決定することによって、例示的なＲＯＩ４０４’が、例示的なＲＯＩ４００’よりも何か悪いとはいえ、参照ＲＯＩ５００にフィットすると決定することがある。それにもかかわらず、エグザンプル４０４は、（ハードエグザンプルとして選択されるならば）同様にＮＭＳ再割り当ての支配下にあるだろう。

【0057】

さらに、ＭＬモデルは、例示的なＲＯＩ４０８’が、しきい値のアライメント度（たとえば、０．７０）を満たさない、または超えないアライメント度５０６（すなわち、この例では、０．６２）に関連付けられると決定することによって、ＲＯＩ４０８’が参照ＲＯＩ５００に下手にフィットすると決定することもある。上記のように、たとえ例示的な部分的に部分４０８が参照５００内に入っても、有効なハードエグザンプルを構成する。

【0058】

同様に、さらに、ＭＬモデルは、例示的なＲＯＩ４１２’が、しきい値のアライメント度（たとえば、０．７０）を満たさない、または超えないアライメント度５０８（すなわち、この例では、０．４７）に関連付けられると決定することによって、ＲＯＩ４１２’が参照ＲＯＩ５００に下手にフィットすると決定することもある。信頼スコアが低い（すなわち、今述べた例では、０．１３）であるので、ＭＬモデルは、例４０８／４０８’を有効なハードエグザンプルとして決定することがある。

【0059】

図６Ａおよび６Ｂは、ＮＭＳ再割り当てを介して選択されるＲＯＩのサブセットに少なくとも部分的に基づいてＭＬモデルをトレーニングするための例示的な処理６００の挿絵入りのフロー図を例示する。動作６０２において、例示的な処理６００は、ここで述べられる技法のうちのどれかに従って、画像を受信することを含むことがある。

【0060】

動作６０４において、例示的な処理６００は、本明細書にて述べられる技法のうちのどれかに従って、複数のＲＯＩ（たとえば、例６１２にて例示されるようなＲＯＩ４００’、４０４’、４０８’、４１２’）および関連付けられた複数の信頼スコアを決定することを含むことがある。例えば、ＭＬモデルは、出力セルを含む（または、より詳細には、複数の特徴を含む）画像に対して出力グリッドを生成することがあり（または、より詳細には、特徴マップを出力することがあり）、出力セル（たとえば、各出力セル）に対して分類ごとにＲＯＩ（および関連付けられた信頼スコア）を決定することがある。非限定の例として、例えば、出力グリッドの各セルは、車両分類、自転車分類、歩行者分類などの各々に対してＲＯＩおよび信頼を有することがあるが、分類のどんな組み合わせでも想定される。今述べたことは、例示的な分類「自動車」に対して決定される、図６Ａに描かれるような複数のＲＯＩ（４００’、４０４’、４０８’、４１２’）を生成することを含むことがある。

【0061】

動作６０６において、例示的な処理６００は、本明細書にて述べられる技法のうちのどれかに従って、参照ＲＯＩ（たとえば、エグザンプル６１４にて例示されるような参照ＲＯＩ５００）を受信することを含むことがある。参照ＲＯＩ５００（たとえば、リファレンスリージョン）は、画像においてオブジェクトを表す画像の領域に対して、人によるラベリング、またはグランドトゥルースを確立するどんな他の適切な方法でも介して、受信されるグランドトゥルースであり得る。場合によっては、参照ＲＯＩは、ＲＯＩが生成された分類に関連付けられた画像の領域を示すことがある。例えば、ＲＯＩ５００は、上に述べたような分類「自動車」を表す画像の領域を示すことがある。動作６０８において、例示的な処理６００は、本明細書にて述べられる技法のうちのどれかに従って、ＭＬモデルをトレーニングするためのエグザンプルのサブセットを選択することを含むことがある。今述べたことは、画像の全部分のうちの１つまたは複数の中から画像の一部分（たとえば、出力セル）を決定することを含んで、ＭＬモデルをトレーニングするためのエグザンプルのサブセットに含むことがある。例えば、例示的な処理６００は、ＮＭＳ再割り当てを使用して、サブセットに含むポジティブエグザンプルを決定すること（６０８（ａ））、サブセットに含むネガティブエグザンプルを決定すること（６０８（ｂ））、および／またはサブセットに含むハードエグザンプルを決定すること（６０８（ｃ））を含むことがある。今述べたことは、以下に詳細に述べられる。場合によっては、追加としてまたは代替えとして、動作６０８は、ＭＬモデルをトレーニングするためのエグザンプルのサブセットにおける包含のためにエグザンプルをランダムに選択することを含むことがある。

【0062】

動作６０８（ａ）は、ＲＯＩに対する信頼スコアが、最大の信頼スコアである、および／または信頼スコアのしきい値を満たすまたは超えることと、参照ＲＯＩに対するＲＯＩのアライメント度が、しきい値のアライメント度を超えることとを決定することを含むことがある（たとえば、ＲＯＩが、画像において表されるオブジェクトを正しく特定することを示すことがある）。動作６０８（ａ）は、ポジティブエグザンプルとして今述べた決定に基づいて、出力セル、および／またはＭＬモデルをトレーニングするためのサブセットにおける包含のために関連付けられたＭＬモデルによって生成されるデータのうちのどれかを選択することを含むことがある。

【0063】

動作６０８（ｂ）は、ＲＯＩに対する信頼スコアが、最小の信頼スコアである、および／または信頼スコアのしきい値を満たさないことと、参照ＲＯＩに対するＲＯＩのアライメント度が、しきい値のアライメント度を満たさないこととを決定することを含むことがある。動作６０８（ａ）は、ネガティブエグザンプルとして今述べた決定に基づいて、出力セル、および／またはＭＬモデルをトレーニングするためのサブセットにおける包含のために関連付けられたＭＬモデルによって生成されるデータのうちのどれかを選択することを含むことがある。

【0064】

図６Ｂに移ると、動作６０８（ｃ）は、一般に、ハードエグザンプルを選択すること（６０８（ｃ）（１））を含むことがある。ハードエグザンプルは、機械学習モデルが最も間違っているエグザンプルと呼ばれることがある。たとえば、上記のハードエグザンプルは、対応しているＲＯＩの非常に高い信頼を有するセルに対応するが、上記のＲＯＩを誤って特定することがある、そうでなければ対応する出力に基づいてペナルティーが与えられるべきである。一般に、ハードエグザンプルは、ネガティブエグザンプルであり得る。ハードエグザンプルを選択することは、誤ったＲＯＩを生成した（そうでなければペナルティーが与えられるべきである）が、高い信頼スコアに関連付けられる画像の今述べた部分（たとえば、１つまたは複数のセル）を特定することと、信頼スコアによって部分をソートすることと、ハードエグザンプルとして、ソートされた残りのＲＯＩから、上位ｎ個の関連付けられた部分を選択することとを含むことがある。しかしながら、どんな適切なハードエグザンプル選択方法でも想定されることが理解される。

【0065】

ハードエグザンプルが選択されたらすぐに、動作６０８（ｃ）は、本明細書にて述べられる技法のうちのどれかに従って、選択されたハードエグザンプルを抑制するかどうかを決定すること（６０８（ｃ）（２））を含むことがある。場合によっては、たとえば、オブジェクトに関連付けられたセルの部分のみが、関連付けられたデータ（たとえば、およびＲＯＩ）を出力するようにトレーニングされる場合、実際に、上記のハードエグザンプルは（ナイーブに選択されるとき）、トレーニングのための良いエグザンプルを表すことがある（たとえば、セルは、オブジェクトに関連付けられた、正しく特定されたＲＯＩを有するが、たとえば、オブジェクトの中央の３０％に属さないとしてペナルティーが与えられる）。上記の場合では、動作６０８（ｃ）（２）は、もし選択されたハードエグザンプルが、ＲＯＩのリージョンの境界内にある画像の一部分に対応する（そうでなければ、有効な出力、たとえば、画像のその部分に関連付けられたオブジェクトに対応するＲＯＩ、に関連付けられた）ならば、選択されたハードエグザンプルを抑制すると決定することがある。選択されたハードエグザンプルを抑制すると決定することに基づいて、動作６０８（ｃ）（２）は、選択されたハードエグザンプルを捨てて、新しいハードエグザンプル（たとえば、上に述べたソートすることに従う最も間違っている次のエグザンプル）を選択するために動作６０８（ｃ）（１）に戻ることを含むことがある。例えば、選択されたハードエグザンプルを捨てることは、選択されたハードエグザンプルを、ＭＬモデルをトレーニングするためのサブセットから除外し、後続の選択において選択されることが不可能であるように、選択されたハードエグザンプルを、ソートされたＲＯＩから除外することを含むことがある。場合によっては、追加としてまたは代替えとして、選択されたハードエグザンプルを抑制するという決定は、参照ＲＯＩに対してハードエグザンプルに関連付けられたＲＯＩのアライメント度が、アライメント度のしきい値を満たすまたは超えると決定することを含むことがある。場合によっては、上記の決定は、ＲＯＩが、ＮＭＳの下に抑制されることがあるだろうかと決定することによってなされることがある。すなわち、ＮＭＳの動作は、高い信頼を有し、参照ＲＯＩに対応するＲＯＩに関連付けられるエグザンプルを決定するために、およびそうでなければハードエグザンプルであるだろうものからそれらを除外するために使用されることがある。

【0066】

場合によっては、動作６０８（ｃ）（２）は、参照ＲＯＩ内の画像の部分に対する、および「良い」アライメント度を有するＲＯＩを生成する、ハードエグザンプルの選択を抑制することがある。例えば、ＲＯＩ４００’および４０４’は、ハードエグザンプルとして選択されるならば、それらが参照ＲＯＩ５００内の画像の部分から生成され、それらが、参照ＲＯＩ５００に対するＲＯＩの「良い」フィットを示すしきい値のアライメント度を超えるアライメント度に関連付けられた各々であるので、動作６０８（ｃ）（２）において抑制されることがあるエグザンプルである。

【0067】

少なくとも場合によっては、上記のエグザンプルを抑制すること（たとえば、捨てること）の反対として、上記のエグザンプルは、ポジティブエグザンプルとして再割り当てされることがある。場合によっては、ハードエグザンプルを抑制すると決定することは、ハードエグザンプルに関連付けられた目標の信頼スコアを変えることを含むことがある。例えば、参照ＲＯＩの中央の３０％内における画像の部分に対して生成されたＲＯＩは、グランドトゥルースの代表であるという決定に基づいて、最大の目標の信頼スコア（たとえば、１．０）に関連付けられることがある。しかしながら、ハードエグザンプルが抑制するとき、そのハードエグザンプルに関連付けられる、およびハードエグザンプルを使用してトレーニングするために使用される目標の信頼スコアが、修正されることがある。例えば、抑制されると決定される、ハードエグザンプルが選択されたならば、ハードエグザンプルに対する目標の信頼スコアは、１．０に変えられることがある。次に、トレーニングは、抑制されたハードエグザンプル、および新しい目標の信頼スコア、１．０を使用して、遂行されることがある。換言すれば、選択されたハード・ネガティブ・エグザンプルは、代わりに、ポジティブエグザンプルとして再割り当てされ、それによって、損失がバックプロパゲーションされることがある。選択されたハードエグザンプルが抑制されない（すなわち、エグザンプルが真のハードネガティブである）ならば、信頼損失は、エグザンプルが、どんなボックスでも出力するようにトレーニングされるが、対応する低い信頼値を有するような、０に設定されることがある。

【0068】

３０％の中央のリージョンをグランドトゥルースとして実装する少なくともいくつかの例にて、今までに述べた技法は、ただランキングだけに基づいて、ナイーブに選択される参照ＲＯＩの残りの７０％（たとえば、中央の３０％の部分ではないオブジェクトの部分）から生成されるエグザンプルを単に捨てた技法によるＭＬモデルの正確度を改善する。さらに、今までに述べた技法は、中央の３０％の外側で参照ＲＯＩの内側にある画像の部分が、適切なアライメント度のＲＯＩを生成することがあるので、中央の３０％の外側に生成されたエグザンプルにペナルティーを与えることによってＭＬモデルをトレーニングする技法によるＭＬモデルの正確度も改善する、換言すれば、適切なＲＯＩを生成するために上記の部分にペナルティーを与えることは、実際には存在しない区分を学習するＭＬモデルを教えることがある（たとえば、適切なＲＯＩが生成された部分が、画像におけるオブジェクトの表現に実際には相関し、これにペナルティーを与えることは、実際には存在しない区分を作るＭＬモデルを教える）。

【0069】

動作６１０において、例示的な処理６００は、本明細書にて述べられる技法のうちのどれかに従って、選択されたエグザンプルのサブセットを使用してＭＬモデルをトレーニングすることを含むことがある。

【0070】

少なくとも場合によっては、ＭＬモデルをトレーニングすることは、第１のステージが、上記のＮＭＳ再割り当てを省略することがあり、第１のステージに続く第２のステージが、ＮＭＳ再割り当てを含むことがある、少なくとも２つのステージを含むことがある。上記の例にて、第２のステージの間、画像の種々の部分（セル）のＲＯＩは、抑制されていないＲＯＩが、同一のまたは後続のステージにおいてＭＬモデルをトレーニングするために参照ＲＯＩ５００として使用されることがあるように、ＮＭＳの下に抑制されることがある。

【0071】

場合によっては、第１のステージは、第１のバッチの画像を、トレーニング用のＭＬモデルに提供することを含むことがあり、第２のステージは、第２のバッチの画像を、トレーニング用のＭＬモデルに提供することを含むことがある。すなわち、異なるバッチのデータは、後続としてモデルをトレーニングするのに使用されることがある。

【0072】

場合によっては、第２のステージにおいてＭＬモデルをトレーニングすることは、ＦｏｃａｌＬｏｓｓ関数を組み入れることがある。場合によっては、ＦｏｃａｌＬｏｓｓ関数は、ファクター、（１－ｐ_t）^γ、ただし、γ＞０（たとえば、γ＝１、γ＝２、γ＝５）を加える交差エントロピー損失関数を含んで、ハード、誤分類されたエグザンプルに、上手く分類されたエグザンプル（たとえば、ｐ_t＞０．５またはｐ_t＞０．７のエグザンプル）よりも、より重くペナルティーを与えることがある。例えば、ＦｏｃａｌＬｏｓｓ関数は、次の式を使用して、ＲＯＩに対して評価されることがある。

【0073】

【数1】

【0074】

ただし、

【0075】

【数2】

【0076】

であり、

【0077】

【数3】

【0078】

がグランドトゥルース分類を示し、

【0079】

【数4】

【0080】

が、ラベルｙ＝１による分類に対するＭＬモデルの信頼スコアである。機能性として、今述べたことは、低い誤差に関連付けられるＲＯＩに対する交差エントロピー損失関数によって計算される誤差の重みを減らし（たとえば、ｐ_t＞０．５に対して、信頼スコアが最適なスコアに近く、ＲＯＩがグランドトゥルースに上手くフィットする）、より大きな誤差に徐々にペナルティーを与える。単に、ＭＬモデルが、それが生成した実際に間違ったＲＯＩについて信頼すればするほど、ますます交差エントロピー損失は、ＦｏｃａｌＬｏｓｓ関数によって変わらないままである。一方、ＦｏｃａｌＬｏｓｓ関数は、上手く分類されたエグザンプルに対して計算された誤差の重みを減らし、たとえ多くの上手く分類されたエグザンプルがあっても、各々が生成する極小の誤差の効果は、効果的なトレーニングに関して、より少なくなるだろう。場合によっては、動作６０８の損失関数は、交差エントロピー損失関数、Ｈｕｂｅｒ関数、平均二乗誤差の計算などを含むことがある。

【0081】

場合によっては、３つのステージが想定され、第１のステージが、どんなＦｏｃａｌＬｏｓｓおよびＮＭＳ再割り当てでも省略するが、第２および第３のステージは、ＦｏｃａｌＬｏｓｓおよび／またはＮＭＳ再割り当てを組み入れる。少なくとも場合によっては、画像は、１つまたは複数のステージにおいて、別個にスケーリングされることがある。非限定の例として、クロップされたサイズ２４０×２４０の画像は、第１のステージにてトレーニングするときに第１のバッチにおいて使用されるが、サイズ９６０×６００を有する画像クロップ（image crop）は、第３のステージにてモデルをトレーニングするのに使用される第３のバッチにおいて使用されることがある。一般に、画像クロップのサイズ、繰り返し数、学習率、バッチサイズ、および／またはバランシングは、ステージからステージへと変わることがある。

【0082】

場合によっては、第１のバッチの画像、および／または第２のバッチの画像は、ＭＬモデルが、異なるタイプのオブジェクトを正確に検出するようにトレーニングされていることを確実にするために、データバランシングされることがある。１つのオブジェクト分類に対して連続的にさらされるＭＬモデルは、異なるタイプのオブジェクトに対してあまり頻繁にさらされないようにゆっくりと「忘れる」（たとえば、検出においてあまり正確にならない）ことがある。その上さらに、ある特定の分類のデータセットにエグザンプルがほとんど存在しない場合（たとえば、自動車が、自転車に関してデータセットを大量に支配するならば）、ＭＬモデルは、画像に自転車がないと単に述べることによって、損失を最適化することがある。それゆえ、場合によっては、第１のバッチの画像、および／または第２のバッチの画像は、第１のオブジェクト分類に関連付けられる第１の予め定義された数の画像（たとえば、第１の予め定義された数の画像の各々が、少なくとも１人の歩行者を含む）、および第２のオブジェクト分類に関連付けられる第２の予め定義された数の画像（たとえば、第２の予め定義された数の画像の各々が、少なくとも１人の自転車に乗る人を含む）を含むことがあるが、分類および相対的な重みのいくつでも想定される。例えば、入力バッチは、ＭＬモデルが検出するようにトレーニングされる各タイプのオブジェクトのうちの４つで、たとえば、自転車４台、自動車４台、歩行者４人、夜間画像４枚、日間画像４枚などで含むことがある３２枚の画像を含むことがある。場合によっては、ＭＬモデルをトレーニングすることは、画像を受信することと、画像に関連付けられたオブジェクト分類を決定することと、画像を、オブジェクト分類に関連付けられるトレーニングキュー（training queue）と関連付けることとを含むことがある。トレーニングの時間において、バッチは、各キューが、別個のオブジェクト分類および／または画像状況（たとえば、夜／昼、障害物）に関連付けられる複数のキューの出力から構成されることがある。ＭＬモデルが、いろいろなオブジェクト分類において連続的にトレーニングされることを確実にするによって、ＭＬモデルは、オブジェクト分類を「忘れ」そうにない。

【0083】

例示的な応答曲線および制限された多重スケール推論
図７Ａおよび７Ｂは、スケールに基づいてＲＯＩの出力サイズを抑制する例を例示する。一般に、ニューラルネットワークは、受容野と関連付けられることがある。上記の受容野は、入力信号のうちのどれぐらいのデータが、推論をするときに使用されるかを示すことがある。例えば、もしモデルの受容野が十分に大きくないならば、より大きいサイズのオブジェクトは、モデルを使用して適切に決定されないことがある。上のように、より大きなモデルは、すべてのオブジェクトを検出するのに用いられることがあるが、上記のモデルは、かなりのリソースおよび処理を必要とするだろうそしてそれは、アプリケーションを限定する（たとえば、上記のモデルは、処理時間およびメモリー要件のために自律車両のアプリケーションにおいて使用されることができないだろう）。今述べた限定を解消するために、１つまたは複数のより小さいネットワーク（すなわち、より小さいメモリーフットプリントおよび／または処理要件を有するネットワーク）が使用されることがある。上記の各ネットワークは、種々のＲＯＩサイズに対する特定の正確度と関連付けられ、上記の範囲内にＲＯＩを出力することのみに制限されることがある。サイズとの関連において述べたが、どんなデータ階層化（または他のメトリック）でも、本明細書にて想定される。非限定の例として、さらに、図７～８のうちのどれにおいてでも、例示される上記の技法は、どんな１つまたは複数の関心のリージョンのサイズ、局所コントラストなどに対してでも最適なネットワークを選択することがある。

【0084】

図７Ａに例示されるように、第１のグラフ７００は、第１のスケールに関する画像（複数可）内の種々のサイズを有するオブジェクトに対する第１のＭＬモデルの例示的な応答曲線７０２を含む。図７Ｂは、第２のスケールに関する画像（複数可）内の種々のサイズを有するオブジェクトに対する第２のＭＬモデルについての第２の例示的な応答曲線７０６を含む第２のグラフ７０４を例示する。第１のグラフ７００および第２のグラフ７０４のｙ軸は、画像におけるオブジェクトを特定するＲＯＩおよび／または信頼スコアに関してモデルの正確度を示すことがあり、第１のグラフ７００および第２のグラフ７０４のｘ軸は、画像におけるオブジェクトのサイズ、ＲＯＩのサイズ、および／または画像のサイズを示すことがある。一例にて、ｘ軸は、ＲＯＩのサイズを示すことがある。

【0085】

場合によっては、技法は、画像における見かけのオブジェクトサイズを介してオブジェクトを分類する（たとえば、ＲＯＩおよび／または信頼スコアを作り出す）ために、第１のＭＬモデルの正確度を示す第１のＭＬモデルに関連付けられた応答曲線を決定することを含むことがある。今述べた応答曲線を生成するために、技法は、第１のＭＬモデルへの入力として、（１つまたは複数の画像に表される）複数のオブジェクトを提供することと、第１のＭＬモデルからの出力として、複数のオブジェクトに関連付けられた複数のＲＯＩおよび／または信頼スコアを受信することと、ＲＯＩおよび／または信頼スコアの各々に対して（たとえば、グランドトゥルースと比較することによって、それぞれのグランドトゥルースの領域に対する各ＲＯＩに対してアライメント度を計算することによって）、正確度を決定することとを含むことがある。応答曲線を生成するために、技法は、ＲＯＩのサイズ（たとえば、高さおよび／または幅、領域）をＲＯＩの正確度（たとえば、ＲＯＩに関連付けられたアライメント度、アライメント度と信頼スコアとの間の不釣り合い）と関連付けることを含むことがある。これらの正確度／ＲＯＩサイズのペアは、画像のバッチから第１のＭＬモデルに対して決定されたＲＯＩに対して、１つにされることがある。

【0086】

場合によっては、数千の画像のバッチが、または数十万の画像のバッチでさえ、今述べた応答曲線が決定され得るように、入力として、第１のＭＬモデルに提供されることがある。第１のＭＬモデルがバッチを処理したらすぐに、技法は、しきい値の正確度を満たすまたは超える正確度に関連付けられたＲＯＩサイズの範囲を特定することと、サイズの範囲を第１のＭＬモデルと関連付けることとを含むことがある。今述べたサイズの範囲は、第１のＭＬモデルが、サイズの範囲のオブジェクトに対して「良い」ＲＯＩを決定することを示すことがある。場合によっては、第１のＭＬモデルは、サイズの範囲内のサイズを有するＲＯＩを出力することがあり、第１のＭＬモデルによって決定される他のＲＯＩを抑制することがある。場合によっては、追加としてまたは代替えとして、ＲＯＩのサイズを介して正確度をプロットすることに対して、ＲＯＩの正確度は、グランドトゥルースのサイズ、画像の一部分のサイズ、および／または画像のサイズを介してプロットされることがある。

【0087】

例えば、上に述べた技法に従って同様に生成された、しきい値の正確度は７０８によって示されることがあり、第１のＭＬモデルは応答曲線７０２と関連付けられることがあり、および第２のＭＬモデルは応答曲線７０６と関連付けられることがある。少なくとも場合によっては、第１および第２のＭＬモデルは、入力スケールにおいて異なるだけの、同一のモデルであり得る。描かれた例に従って、第１のＭＬモデルに関連付けられた第１の範囲は、サイズ９００×９００の入力画像に基づいて、１００および２００ピクセル間のピクセルの高さを有するＲＯＩのみを出力することがあるが、第２のＭＬモデルに関連付けられた第２の範囲は、サイズ３００×３００の入力画像に基づいて、５０および１００ピクセル間の高さを有するＲＯＩのみを出力することがある。場合によっては、第１の応答曲線７０２、および第２の応答曲線は、異なるしきい値の正確度レベルと関連付けられることが可能である。

【0088】

もちろん、モデルおよび／またはスケールのいくつでも、入力および出力のサイズに関する種々の範囲に対して決定されることがある。種々のスケールの（元の画像サイズに対して、より大きい、等しい、またはより小さい）画像は、画像におけるオブジェクトを検出する、分類する、および／または区分するために、種々の出力モデルに（連続してか実質的に同時にかいずれかで）入力されることがある。

【0089】

少なくとも一例にて、選択されるモデル、範囲、または階層化の指定は、第３のモデルに少なくとも部分的に基づいて決定されることがある。非限定の例として、モデルは、望ましい出力を決定するために使用する、何というスケールおよび／または何というモデル間で区別するようにトレーニングされることがある。

【0090】

図８Ａは、本明細書にて述べられる技法に従って、入力として第１のＭＬモデル８０２に提供される第１のスケーリングされた画像８００と、第１のスケーリングされた画像を受信することに応答する第１のＭＬモデルによって生成される第１のスケーリングされた画像および２つのＲＯＩ（８０４、８０６）とを例示する。場合によっては、第１のＭＬモデル８０２は、第１のサイズの範囲に関連付けられることがあり、車両１０８に対してＲＯＩを生成していることがあるが、ＲＯＩは、第１のサイズの範囲外に入っていて、第１のＭＬモデルによって抑制されている。一方、車両１０６に対応するＲＯＩ８０４、および車両１１０に対応するＲＯＩ８０６は、第１のサイズの範囲内に入ることがあり、それゆえ、第１のＭＬモデルによって出力されることがある。場合によっては、第１のスケーリングされた画像は、１のファクターによってスケーリングされることがある（たとえば、第１のスケーリングされた画像がアンスケーリングされる）。

【0091】

図８Ｂは、本明細書にて述べられる技法に従って、入力として第１のＭＬモデルに提供される例示的な第２のスケーリングされた画像８０８と、第２のスケーリングされた画像を受信することに応答する第１のＭＬモデルによって生成されるＲＯＩ８１０とを例示する。場合によっては、第２のスケーリングされた画像は、１より小さいスケール係数によってスケーリングされ、例示的な画像８００のよりも小さいスケールの画像に帰着する。描かれた例にて、画像がスケールダウンされているので、今、車両１０８に対応するＲＯＩは、第１のＭＬモデルと関連付けられた第１のサイズの範囲内に入り、車両１０６および１１０と関連付けられたＲＯＩは、第１のサイズの範囲外に入っており、それゆえ、図８Ｂにおいて、第１のＭＬモデル８０２によって抑制されている。場合によっては、第２のスケールファクターは（および／またはどんな追加のスケールファクターでも）、同一の画像が２つの異なるスケールにおいて第１のＭＬモデルに提供されるときに、ＲＯＩが同一のオブジェクトに対して冗長に生成されないように選択されることがある。

【0092】

場合によっては、第１のサイズの範囲は、第１のＭＬモデルの受容野に少なくとも部分的に基づくことがある。例えば、例示的な画像８００における車両１０８の表現は、あまりにも大き過ぎて受容野にフィットしないことがあるが、例示的な画像８０８における車両１０８の表現は、スケールダウンされるとすぐに、第１のＭＬモデルの受容野にフィットすることがある。

【0093】

場合によっては、第１のサイズの範囲、および／または第２のサイズの範囲は、種々のサイズ（または、以下に述べられる種々のメトリックおよび／またはデータ階層化）を正確に区別するのに使用される種々のＭＬモデルの精度、再呼び出し、および／または正確度を最適化する回帰モデル（または他の機械学習されたモデル）に部分的に基づくことが可能である。

【0094】

図８Ｃは、画像においてすべてのオブジェクトを検出するための追加のまたは代替えの例を例示する。反復的に（図８Ｂに描かれるような）、画像をＭＬモデルに提供することと、ＲＯＩを決定し、第１のサイズの範囲内のサイズ（複数可）を有するＲＯＩ（複数可）を出力することと、画像をスケーリングすることと、スケーリングされた画像をＭＬモデルに提供することなどとの代わりに、例示的な画像８００は、第２のＭＬモデル８１２が、第１のＭＬモデルによって検出されないオブジェクト（たとえば、今述べた例における車両１０８）に対して、ＲＯＩ８１４を決定することがあるように、第２のサイズの範囲と関連付けられた第２のＭＬモデル８１２に提供されることがある。場合によっては、画像は、各ディテクターが、別個のサイズの範囲と関連付けられ、サイズの範囲内のＲＯＩを出力する場合、複数のディテクターに提供されることがある、および／または今述べた技法は、第１のスケーリングされた画像を第１のディテクターに提供することと、第１の出力を第１のディテクターから受信することと、第１のスケーリングされた画像を第２のスケーリングされた画像としてスケーリングすることと、第２のスケーリングされた画像を第１のディテクターに提供することと、第２の出力を第２のディテクターから受信することと、によって組み合わされることがある。

【0095】

図８Ａ、８Ｂ、および８Ｃが、入力画像のサイズを変えることとの関連において、および／または予期される出力サイズに基づいてＭＬモデルを選択することとの関連において述べられるが、どんなメトリックおよび／またはデータ階層化が、適切なＭＬモデルを選択する、および／またはスケールを入力するのに使用されることが可能である。例えば、種々のメトリックは、限定されないが、コントラスト（たとえば、画像のリージョンおよび／またはピクセルの局所コントラスト）、輝度、チャネル数、色（たとえば、ＲＧＢ、白黒、グレースケールなど）、サイズ（たとえば、幅および高さ）、面積、グリッドのサイズ、画像において特定されるオブジェクト数、時刻（たとえば、昼／夜）、天気（たとえば、雨、晴れ、雪、霧など）、分類などのうちの１つまたは複数を含むことが可能である。

【0096】

今述べたやり方にて、同一のＭＬモデル、および／または異なるＭＬモデルは、例えば、自律車両を制御するように、高度の正確度において、あまりにも計算時間がかかり過ぎてリアルタイムのアプリケーションに対して利用されないだろう大きなニューラルネットワークをトレーニングすることなく、異なるサイズのオブジェクトに対してＲＯＩを生成することがある。

【0097】

例示的なインスタンスセグメンテーション
図９Ａは、例示的な画像９０４の一部分９０２に対してＭＬモデルによって決定された例示的なＲＯＩ９００を例示する。上に（たとえば、図５に関して）例示したエグザンプルを使ってのように、ＭＬモデルはＲＯＩを出力するようにトレーニングされることがある。しかしながら、上のエグザンプルにおいてトレーニングされたモデルと違って、図９Ａに例示されるＭＬモデルは、中央の３０％と関連付けられたＲＯＩの代わりに、オブジェクトのマスクにおけるピクセルに関連付けられたそれらのＲＯＩを使用して、トレーニングされることがある。具体的には、画像におけるオブジェクトに対する画像のマスクおよび対応するＲＯＩは、ＭＬモデルをトレーニングするときにグランドトゥルースとして使用されることがある。例えば、上記の関心のリージョンをトレーニングすることは、マスクと関連付けられるＲＯＩ（たとえば、マスクのピクセルに少なくとも部分的に基づくバウンディングボックス）に基づいて決定されることがある。図９Ａに例示されるように、画像９０４の（ピクセルであり得る）一部分９０２は、オブジェクトのマスクの部分を形成し、関連するＲＯＩ９００を有することがある。

【0098】

図９Ｂは、例示的な画像９０４における同一のオブジェクト（すなわち、今述べた例における車両１１０）と関連付けられた例示的な複数のＲＯＩ９０６を例示する。場合によっては、ＭＬモデルは、例示的な画像９０４を受信することがあり、画像９０４の一部分および／またはピクセルごとに関連付けられた例示的な複数のＲＯＩ９０６および／または信頼スコアを含む複数のＲＯＩを生成することがある。

【0099】

場合によっては、上のように、ＭＬモデルは、複数の決定されたＲＯＩの外のオブジェクト（たとえば、オブジェクト１１０）に関連付けられる単一のＲＯＩを決定することがある。少なくとも一例にて、上記の検出は、ＮＭＳを使用して達成されることがある。本明細書にて述べられる例と同様に、すべてのピクセルまたは部分は、ＲＯＩを出力することがあり、複数のＲＯＩは、ＮＭＳによって抑制されることがある（たとえば、最大の信頼レベルに関連付けられないＲＯＩが抑制されることがある）。実質的に同時に、ＭＬモデルは、車両１１０と関連付けられるＲＯＩと、出力用のＲＯＩの決定に少なくとも部分的に基づいて、オブジェクトに関連付けられる画像の特定の部分（たとえば、オブジェクトを表すピクセル）を特定するマスクとを決定することがある。

【0100】

少なくとも場合によっては、上記のＭＬモデルは、ＮＭＳの間に抑制されたピクセルおよび／またはリージョンのインディケーションを持ち続けることがある。画像のすべての上記ピクセルおよび／または部分は、オブジェクトのマスク（インスタンスセグメンテーション）と関連付けられることがある。場合によっては、さらに、ＮＭＳによって抑制されなかった極大のＲＯＩを生成した画像の部分は、マスクと関連付けられることもある。

【0101】

図９Ｃは、本明細書にて述べられる技法に従って、オブジェクトを特定する例示的なインスタンスセグメンテーション（すなわち、描かれた例におけるマスク）の２つの表現（９１０、９１２）を例示する。表現９１０は、例示的なマスクがオブジェクト（すなわち、車両１１０）を表すとして特定する画像の暗い部分を含む。明確のために、表現９１２は、オブジェクトをポジティブに特定するとしてマスクに含まれる画像の部分が車両１１０に対応することを示す図９Ｃに含まれる。場合によっては、表現９１０の画像の暗い部分の各々は、ＭＬモデルが、ＮＭＳの間に抑制されたＲＯＩを生成した、またはそうでなければ上記のオブジェクトのＲＯＩ（たとえば、最大の信頼スコアに関連付けられたＲＯＩ）と関連付けられた、画像の部分に対応することがある。場合によっては、自律車両は、自律車両の動きを制御するための軌道を生成するＲＯＩおよび／またはマスクを使用することがある。

【0102】

今述べた技法は、インスタンスセグメントを行うために別々の動作を必要とするかつての技法を越えた改良である。代わりに、本明細書にて述べられる技法は、従来の技法を使用してオブジェクト検出を行うのにかかるのと同じ計算時間において、オブジェクト検出と画像セグメンテーションとの両方を行う。場合によっては、本明細書にて説明されるＭＬモデルは、２０ミリ秒で実行される。

【0103】

例示的なアーキテクチャー
図１０は、本明細書において述べられる技法のどれかに従って、少なくとも１つの車両、例えば、自律車両などの動作を制御するための例示的な車両システム１００２を含む例示的なアーキテクチャー１０００のブロック図である。場合によっては、車両システム１００２は、自律車両１０４の少なくとも一部を表すことがある。場合によっては、今述べたアーキテクチャーは、本明細書にて述べられるＲＯＩ、画像セグメント、および／または信頼スコアに少なくとも部分的に基づいて、自律車両を制御するのに使用されることがある。

【0104】

場合によっては、車両システム１００２は、（まとめるとコンピューティングデバイス（複数可）１１８を表すことがある）プロセッサー（複数可）１００４および／またはメモリー１００６を含むことがある。今までに述べたエレメントは、図１０において組み合わせにより例示されるが、これらが、車両システム１００２の別々のエレメントであり得ることと、場合によっては、システムのコンポーネントが、ハードウェアおよび／またはソフトウェアとして実装され得ることとが理解される。

【0105】

プロセッサー（複数可）１００４は、１つのプロセッサーを含むユニプロセッサーシステム、またはいくつか（たとえば、２つ、４つ、８つ、または別の適切な個数）のプロセッサーを含むマルチプロセッサーシステムを含み得る。プロセッサー（複数可）１００４は、命令を実行する能力があるどんな適切なプロセッサーでもあり得る。例えば、種々の実装において、プロセッサー（複数可）は、いろいろなＩＳＡ（命令セットアーキテクチャー）のどれでも、例えば、ｘ８６、ＰｏｗｅｒＰＣ、ＳＰＡＲＣ、もしくはＭＩＰＳのＩＳＡ、または他の適切などんなＩＳＡでも実装する汎用または組み込みプロセッサーであり得る。マルチプロセッサーシステムにおいて、各プロセッサー１００４は、一般的に、必ずしもではないが、同一のＩＳＡを実装し得る。場合によっては、プロセッサー（複数可）１００４は、ＣＰＵ（中央処理装置）、ＧＰＵ（グラフィックスプロセッサー）、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはそれの組み合わせを含み得る。

【0106】

例示的な車両システム１００２は、メモリー１００６を含み得る。場合によっては、メモリー１００６は、実行可能な命令／モジュール、データ、および／またはプロセッサー（複数可）１００４によりアクセス可能なデータアイテムを格納するように構成された非一時的なコンピューター読み取り可能な媒体を含み得る。種々の実装において、非一時的なコンピューター読み取り可能な媒体は、適切などんなメモリー技術でも、例えば、ＳＲＡＭ（スタティックＲＡＭ）、ＳＤＲＡＭ（シンクロナスＤＲＡＭ）、不揮発性／フラッシュ型メモリー、またはメモリーの他のどんなタイプなどでも使用して、実装され得る。例示される例において、例えば、上に説明されたような、望ましい動作を実装するプログラム命令およびデータは、非一時的なコンピューター読み取り可能なメモリー内に格納されて示される。他の実装において、プログラム命令、および／またはデータは、受信され、送られ、または例えば、非一時的なコンピューター読み取り可能な媒体、もしくは非一時的なコンピューター読み取り可能な媒体から分離した同様な媒体など、様々なタイプのコンピューターアクセス可能な媒体に格納され得る。一般的に言って、非一時的な、コンピューター読み取り可能なメモリーは、ストレージ媒体またはメモリー媒体、例えば、例示的な車両システム１００２に「Ｉ／Ｏ」（入力／出力）インターフェイス１００８を介して結合されたフラッシュメモリー（たとえば、ソリッドステートメモリー）、磁気または光媒体（たとえば、ディスク）などを含み得る。非一時的なコンピューター読み取り可能な媒体を介して格納されたプログラム命令およびデータは、例えば、ネットワークインターフェイス１０１０を介して実装され得るような通信媒体、例えば、ネットワークおよび／または無線リンクなどを介して運ばれ得る伝送媒体または信号、例えば、電気的な、電磁気的な、またはデジタルの信号などにより送信されることがあり得る。

【0107】

さらにその上、図１０においてシングルユニットとして例示されるが、プロセッサー（複数可）１００４およびメモリー１００６は、車両の複数のコンピューティングデバイスにおよび／または複数の車両、データセンター、遠隔操作センターなどに分散され得る。

【0108】

場合によっては、「Ｉ／Ｏ」（入力／出力）インターフェイス１００８は、プロセッサー（複数可）１００４、メモリー１００６、ネットワークインターフェイス１０１０、センサー（複数可）１０１２、Ｉ／Ｏデバイス１０１４、ドライブシステム１０１６、および／または車両システム１００２の他のどのハードウェアの間にでも、Ｉ／Ｏトラフィックを調整するように構成され得る。場合によっては、Ｉ／Ｏデバイス１０１４は、外部および／または内部のスピーカー（複数可）、ディスプレイ（複数可）、乗客の入力デバイス（複数可）などを含み得る。場合によっては、Ｉ／Ｏインターフェイス１００８は、プロトコル、タイミング、または他のデータの変換を行い、あるコンポーネント（たとえば、非一時的なコンピューター読み取り可能な媒体）からのデータ信号を、別のコンポーネント（たとえば、プロセッサー（複数可））による使用に適したフォーマットへとコンバートすることがあり得る。場合によっては、Ｉ／Ｏインターフェイス１００８は、例えば、ＰＣＩ（Peripheral Component Interconnect）バス規格、ＵＳＢ（ユニバーサルシリアルバス）規格、またはそれのバリアントのような種々のタイプのペリフェラルバスを通じて取り付けられたデバイスに対するサポートを含み得る。いくつかの実装において、Ｉ／Ｏインターフェイス１００８の機能は、例えば、ノースブリッジおよびサウスブリッジなどのような、２つ以上の別々のコンポーネントに分裂されることがあり得る。さらに、場合によっては、Ｉ／Ｏインターフェイス１００８の機能性の一部またはすべて、例えば、メモリー１００６へのインターフェイスなどは、プロセッサー（複数可）１００４、および／または車両システム１００２の１つまたは複数の他のコンポーネントに直に組み入れられることがあり得る。

【0109】

例示的な車両システム１００２は、車両システム１００２と１つまたは複数の他のデバイスとの間に通信リンク（すなわち、「ネットワーク」）を確立するように構成されたネットワークインターフェイス１０１０を含み得る。例えば、ネットワークインターフェイス１０１０は、車両システム１００２と別の車両１０１８との間において第１のネットワーク１０２０を介して、および／または車両システム１００２とリモートコンピューティングシステム１０２２との間において第２のネットワーク１０２４を介して、データが交換されることを可能にするように構成され得る。例えば、ネットワークインターフェイス１０１０は、別の車両１０１８および／またはリモートコンピューティングデバイス１０２２間の無線通信を可能にすることがあり得る。種々の実装において、ネットワークインターフェイス１０１０は、例えば、Ｗｉ－Ｆｉネットワークのような無線の一般的なデータネットワーク、および／または例えば、セルラー通信ネットワーク、衛星ネットワークなどのようなテレコミュニケーションネットワークを介した通信をサポートすることがあり得る。

【0110】

例示的な車両システム１００２は、例えば、車両システム１００２を環境中にローカライズするように、環境中の１つまたは複数の物体を検出するように、環境を通じて例示的な車両システム１００２の動きを検知し、環境データ（たとえば、周囲の温度、気圧、および湿度）を検知し、および／または例示的な車両システム１００２の内部の状態（たとえば、乗客総数、内部温度、ノイズレベル）を検知するように構成されたセンサー（複数可）１０１２を含み得る。例えば、センサー（複数可）１０１２は、１つまたは複数のＬＩＤＡＲセンサー、１つまたは複数のカメラ（たとえば、ＲＧＢカメラ、強度（グレースケール）カメラ、赤外線カメラ、深度カメラ、ステレオカメラ）、１つまたは複数の磁気センサー、１つまたは複数のレーダーセンサー、１つまたは複数のソナーセンサー、１つまたは複数の音を検知するためのマイクロホン、１つまたは複数の（たとえば、加速度計およびジャイロスコープを含む）ＩＭＵセンサー、１つまたは複数のＧＰＳセンサー、１つまたは複数のガイガーカウンターセンサー、１つまたは複数のホイールエンコーダー、１つまたは複数のドライブシステムセンサー、スピードセンサー、および／または例示的な車両システム１００２の動作に関係した他のセンサーを含み得る。場合によっては、本明細書にて述べられるセンサーデータは、第１の車両により受信され、第２の車両に送信され得る。場合によっては、本明細書にて述べられる画像は、センサー（複数可）１０１２のうちのセンサーにおいて受信され、認識エンジン１０２６に提供されることがある。

【0111】

例示的な車両システム１００２は、認識エンジン１０２６（たとえば、認識エンジン１１６）ＭＬモデル１０２８（たとえば、ＭＬモデル１１４）、およびプランナー１０３０（たとえば、プランナー１２０）を含むことがある。

【0112】

認識エンジン１０２６は、プロセッサー（複数可）１００４により実行されると、センサーデータをセンサー（複数可）１０１２から入力として受信し、例えば、例示的な車両システム１００２を取り巻く環境中の物体に関する１つまたは複数の姿勢（たとえば、位置および向き）、物体に関連付けられた物体追跡（object track）（たとえば、時間周期（たとえば、５秒）にわたる物体に関する位置履歴、速度履歴、加速度履歴、および／もしくは進路履歴）、ならびに／または物体（たとえば、歩行者、車両、自転車運転者など）に関連付けられたオブジェクト分類の典型的なデータを出力するプロセッサー（複数可）１００４を構成する、メモリー１００６に格納された命令を含み得る。場合によっては、認識エンジン１０２６は、１つまたは複数の物体に関する、より多くの物体の軌道を予測するように構成され得る。例えば、認識エンジン１０２６は、例えば、オブジェクトに関連付けられた予測される位置、軌道、および／もしくは速度の確率的決定またはマルチモーダル分布に基づいて、複数のオブジェクトの軌道を予測するように構成され得る。

【0113】

認識エンジン１０２６は、プロセッサー（複数可）１００４によって実行されると、入力、例えば、画像としてセンサー（複数可）１０１２からセンサーデータを受信し、センサーデータをＭＬモデル１０２８に提供し、ＲＯＩ、画像セグメント、および／または信頼スコアをＭＬモデル１０２８から受信し、認識エンジンがオブジェクトをセンサーデータから検出し、１つまたは複数のＲＯＩ、インスタンスセグメンテーション（複数可）、信頼スコア（複数可）、分類（複数可）、および／または関係する他のデータを出力し得ることのインディケーションを出力するようにプロセッサー（複数可）１００４を構成する、メモリー１００６に格納された命令を含むことがある。さらに、ＲＯＩ（複数可）、インスタンスセグメンテーション（複数可）、信頼スコア（複数可）、分類（複数可）、および／または関係する他のデータは、メモリー１００６に格納されることもある。

【0114】

ＭＬモデル１０２８は、プロセッサー（複数可）１００４によって実行されると、画像を受信し、画像に少なくとも部分的に基づいて、画像におけるオブジェクトの表現を特定するＲＯＩ（複数可）、および／またはインスタンスセグメンテーション（複数可）を出力することを決定するようにプロセッサー（複数可）１００４を構成する、メモリー１００６に格納された命令を含むことがある。ＭＬモデル１０２８は、例えば、ランダムフォレストおよび／または向上された決定木のアンサンブルなどの決定木、またはそれのどんな配置でも、ＤＡＧ（有向非巡回グラフ）（たとえば、ノードがベイジアンネットワークとして組織される場合）、例えば、ＡＮＮ（人工ニューラルネットワーク）、ＤＢＮ（deep belief network）、ＤＳＮ（deep stacking network）、またはＲＮＮ（リカレントニューラルネットワーク）などの深層学習アルゴリズム（複数可）などを含み得る。場合によっては、ＭＬモデル１０２８は、特徴値が、出力を決定するためにプッシュされ得るノードを有するＲＮＮを含み得る。例えば、ＭＬモデル１０２８は、ノードの入力層、ノードの１つまたは複数の隠れ層、およびノードの出力層を含むことがあり得る。場合によっては、ノードの入力層は、画像および／またはその一部を受信し、１つまたは複数の隠れ層のノードを活性化するように構成されることがあり得る。出力層は、１つまたは複数の隠れ層のノードから刺激を受信し、最も活性化された出力層のノードに基づいて、および／または出力ノードの活性化量に対応し得る出力ノードの出力に基づいて、ＲＯＩ、画像セグメント、および／または信頼スコアを出力するように構成されることがあり得る。場合によっては、個々の出力ノードは、画像の一部と対応することがある。

【0115】

認識エンジン１０２６は、ＲＯＩ、画像セグメント、信頼スコア、および／または関係する他のデータを、プランナー１０３０が軌道を生成するのに使用し得る他の追加情報（たとえば、オブジェクト分類、物体追跡、車両姿勢）とともに、プランナー１０３０に送信することがあり得る。場合によっては、追加としてまたは代替として、認識エンジン１０２６および／またはプランナー１０３０は、少なくとも部分的に、認識エンジン１０２６によって決定された信頼スコア（複数可）に基づいて、ネットワークインターフェイス１０１０を介してＲＯＩ（複数可）、インスタンスセグメンテーション（複数可）、信頼スコア（複数可）、分類（複数可）、および／または関係する他のデータを、ネットワーク１０２４を介してリモートコンピューティングデバイス１０２２に、および／またはネットワーク１０２０を介して別の車両１０１８に送信することがあり得る。

【0116】

場合によっては、認識エンジン１０２６および／またはＭＬモデル１０２８は、別の車両１０１８および／またはリモートコンピューティングデバイス１０２２に配置されることがあり得る。場合によっては、別の車両１０１８および／またはリモートコンピューティングデバイス１０２２に配置された認識エンジンは、認識エンジン１０２６と決定を調整し得る。ＭＬモデル１０２８が他の車両１０１８および／またはリモートコンピューティングデバイス１０２２に配置される場合において、他の車両１０１８および／またはリモートコンピューティングデバイス１０２２は、それぞれ、ネットワーク１０２０および／または１０２４を介して、画像を車両システム１００２から受信することがあり、ＲＯＩ（複数可）、インスタンスセグメンテーション（複数可）、信頼スコア（複数可）、分類（複数可）、および／または関係する他のデータを決定することがある。次に、他の車両１０１８および／またはリモートコンピューティングデバイス１０２２は、ＲＯＩ（複数可）、インスタンスセグメンテーション（複数可）、信頼スコア（複数可）、分類（複数可）、および／または関係する他のデータを、車両システム１００２のプランナー１０３０に戻す送信をすることがある。

【0117】

プランナー１０３０は、プロセッサー（複数可）１００４により実行されると、例えば、環境中の例示的な車両システム１００２のロケーションを表すデータ、および他のデータ、例えば、ローカルポーズデータ（local pose data）などと、ＲＯＩ（複数可）、インスタンスセグメンテーション（複数可）、信頼スコア（複数可）、分類（複数可）、および／または関係する他のデータとを使用して、例示的な車両システム１００２の軌道の典型的なデータを生成するプロセッサー（複数可）１００４を構成する、メモリー１００６に格納された命令を含み得る。場合によっては、プランナー１０３０は、実質的には連続的に（たとえば、後退ホライズン（receding horizon）の時間が想定されるが、１または２ミリ秒ごとに）、例示的な車両システム１００２を制御するための複数の可能性がある軌道を生成し、車両を制御するための軌道のうちの１つを選択することがあり得る。選択は、現在のルート、静止車両がブロッキング車両である確率、現在の車両の軌道、および／または検出された物体の軌道データに少なくとも部分的に基づくことがあり得る。軌道を選択するとすぐに、プランナー１０３０は、軌道をドライブシステム１０１６に送信して、選択された軌道に従って例示的な車両システム１００２を制御することがあり得る。

【0118】

場合によっては、さらに、認識エンジン１０２６、ＭＬモデル１０２８、および／またはプランナー１０３０は、例えば、認識エンジンを実行するのに適したプロセッサー（たとえば、グラフィックスプロセッサー、ＦＰＧＡ）のような特殊化されたハードウェアを含み得る。

【0119】

例示的な箇条
Ａ．システムは、１つまたは複数のプロセッサーと、１つまたは複数のプロセッサーによって実行可能な命令を格納する１つまたは複数のコンピューター読み取り可能な媒体とを含み、命令が、実行されると、システムに、ＭＬ（機械学習）モデルに入力として画像を提供することと、ＭＬモデルから出力として特徴マップを受信し、特徴マップの一部分は、バウンディングボックスおよび信頼スコアに関連付けられることと、エグザンプルのサブセットに少なくとも部分的に基づいてＭＬモデルをトレーニングし、トレーニングは、オブジェクトを表す画像の領域に関連付けられたリファレンスリージョンを特定すること、第１のバウンディングボックスに関連付けられた第１の信頼スコアに少なくとも部分的に基づいて、エグザンプルのサブセットにおける包含のために第１のハードエグザンプルを選択し、第１の信頼スコアおよび第１のバウンディングボックスは、特徴マップの第１の一部分に関連付けられること、リファレンスリージョンに対する第１のバウンディングボックスの第１のアライメント度が、しきい値のアライメント度を満たすまたは超えると決定すること、ならびにしきい値のアライメント度を満たすまたは超えることに少なくとも部分的に基づいて、第２のハードエグザンプルと第１のハードエグザンプルを取り替えることを含むこととを含む動作を行わせる。

【0120】

Ｂ．段落Ａとしてのシステムは、動作が、リファレンスリージョンに対する第２のハードエグザンプルに関連付けられた第２のバウンディングボックスの第２のアライメント度がしきい値のアライメント度より小さいと決定することに少なくとも部分的に基づいてエグザンプルのサブセットにおける第２のハードエグザンプルを含むことをさらに含むと詳述する。

【0121】

Ｃ．段落ＡまたはＢとしてのシステムは、リファレンスリージョンの第１の一部分が、ポジティブエグザンプルに関連付けられるとして示され、特徴マップの第１の一部分が、リファレンスリージョンの第１の一部分の外側においてリファレンスリージョンの第２の一部分に関連付けられると詳述する。

【0122】

Ｄ．段落Ｃとしてのシステムは、リファレンスリージョンの第１の一部分に関連付けられた第１の目標の信頼スコアが、最大の信頼スコアであり、第２の一部分に関連付けられた第２の目標の信頼スコアが、最小の信頼スコアであり、ＭＬモデルをトレーニングすることが、第１のアライメント度がしきい値のアライメント度を満たすまたは超えることに少なくとも部分的に基づいて、第２の目標の信頼スコアの代わりに第１の目標の信頼スコアに第１のハードエグザンプルを関連付けることをさらに含むと詳述する。

【0123】

Ｅ．段落Ａ～Ｄのうちのいずれかとしてのシステムは、第１のアライメント度が、第１のバウンディングボックスと領域との和集合によって分割されたリファレンスリージョンと第１のバウンディングボックスの積集合であると詳述する。

【0124】

Ｆ．コンピューター実装方法は、オブジェクトを表す画像を受信することと、画像においてオブジェクトを表す領域を示すリファレンスリージョンを特定することと、画像の一部分のサブセットを選択することと、サブセットに少なくとも部分的に基づいて、特徴マップ、分類情報に関連付けられた特徴マップの一部分、ＲＯＩ（region of interest；関心のリージョン）情報、および信頼情報を出力するＭＬ（機械学習）モデルをトレーニングすることとを含み、画像の一部分のサブセットを選択することは、しきい値の信頼を満たすまたは超える第１の信頼情報を有する第１の一部分に少なくとも部分的に基づいて、特徴マップの第１の一部分を特定することと、比較として、第１の一部分に関連付けられたＲＯＩ情報をリファレンスリージョンと比較することと、画像の一部分のサブセットとしておよび比較に少なくとも部分的に基づいて、特徴マップの第２の一部分を決定することとを含む。

【0125】

Ｇ．段落Ｆとしてのコンピューター実装方法は、ＲＯＩを比較することが、リファレンスリージョンに関して第１の一部分のＲＯＩ情報のＮＭＳ（non-maximal suppression；非極大抑制）を行うことを含み、特徴マップの第２の一部分が、非極大抑制の下に抑制されたＲＯＩに関連付けられると詳述する。

【0126】

Ｈ．段落Ｇとしてのコンピューター実装方法は、第１の一部分に、最高の信頼スコアを関連付けることをさらに含むと詳述する。

【0127】

Ｉ．段落Ｆ～Ｈのうちのいずれかとしてのコンピューター実装方法は、画像に少なくとも部分的に基づいて、分類に対応する複数の出力ＲＯＩを実質的に同時に出力するＭＬモデルをトレーニングすることをさらに含み、分類が、１つまたは複数の車両、歩行者、または自転車運転者を含むと詳述する。

【0128】

Ｊ．段落Ｆ～Ｉのうちのいずれかとしてのコンピューター実装方法は、リファレンスリージョンが、第１のリージョンおよび第２のリージョンを含み、さらに特徴マップの第２の一部分が、第１のリージョンの外の特徴を含むと詳述する。

【0129】

Ｋ．段落Ｊとしてのコンピューター実装方法は、第１のリージョンが、リファレンスリージョンの中央部分と、分類情報のポジティブなアイデンティフィケーションとに関連付けられると詳述する。

【0130】

Ｌ．段落Ｆ～Ｋのうちのいずれかとしてのコンピューター実装方法は、比較することが、ＲＯＩ情報とリファレンスリージョンとの和集合によって分割されたリファレンスリージョンによって示される領域とＲＯＩ情報の積集合としてのアライメント量を決定することを含むと詳述する。

【0131】

Ｍ．段落Ｌとしてのコンピューター実装方法は、比較することが、しきい値のアライメント度を満たすまたは超えるアライメント量を決定することをさらに含むと詳述する。

【0132】

Ｎ．段落Ｆ～Ｍのうちのいずれかとしてのコンピューター実装方法は、ＭＬモデルをトレーニングすることが、少なくとも２つステージを含み、少なくとも２つのステージのうちの第１のステージが、ＭＬモデルに出力として、画像の第１のバッチを提供することと、ＭＬモデルからおよび画像の第１のバッチに少なくとも部分的に基づいて、画像の第１のバッチに関する第１の画像に関連付けられた中間ＲＯＩを受信することと、リファレンスリージョンとして中間ＲＯＩを特定することとを含み、少なくとも２つのステージのうちの第２のステージが、ＭＬモデルに第２の入力として画像の第１のバッチを提供することと、ＭＬモデルからおよび画像の第１のバッチに少なくとも部分的に基づいて、第２の複数のＲＯＩ、および関連付けられた第２の複数の信頼スコアを受信することと、ＭＬモデルをトレーニングするためのエグザンプルの第２のサブセットにおける包含のためにおよびＮＭＳ（非極大抑制）の技法に少なくとも部分的に基づいて、第２の複数のＲＯＩに関連付けられた画像の一部分の中からＭＬモデルをトレーニングするためのハードエグザンプルを選択することと、第２のサブセットに少なくとも部分的に基づいてＭＬモデルをトレーニングすることと、を含むと詳述する。

【0133】

Ｏ．段落Ｎとしてのコンピューター実装方法は、第２のステージが、ＦｏｃａｌＬｏｓｓを使用してＭＬモデルをトレーニングすることをさらに含むと詳述する。

【0134】

Ｐ．段落Ｆ～Ｍのうちのいずれかとしてのコンピューター実装方法は、ＲＯＩ情報がバウンディングボックスを含むと詳述する。

【0135】

Ｑ．段落Ｆ～Ｐのうちのいずれかとしてのコンピューター実装方法は、第１の予め定義された数の、第１のオブジェクト分類に関連付けられる画像、および第２の予め定義された数の、第２のオブジェクト分類に関連付けられる画像を含む画像のバッチを受信することと、ＭＬモデルへの入力としての画像のバッチを提供することに少なくとも部分的に基づいて、ＭＬモデルをトレーニングすることをさらに含み、第１の予め定義された数の画像、および第２の予め定義された数の画像は、特徴マップのうちの１つまたは複数の特徴に関連付けられた信頼情報に少なくとも部分的に基づくと詳述する。

【0136】

Ｒ．非一時的なコンピューター読み取り可能な媒体は、実行されると、１つまたは複数のプロセッサーに、ＭＬ（機械学習）モデルへの入力として画像を提供することと、ＭＬモデルからの出力として、特徴マップ、画像におけるオブジェクトの示す第１のＲＯＩ（関心のリージョン）を含む特徴マップの第１の一部分、および第１の信頼スコアを受信することと、テスト画像の複数の一部分に関連付けられたポジティブエグザンプルのサブセットおよびネガティブエグザンプルのサブセットに少なくとも部分的に基づいて、ＭＬモデルをトレーニングすることと、を含む動作を行わせる命令のセットを有し、ＭＬモデルをトレーニングすることが、ＭＬモデルにテスト画像を提供し、テスト画像がグランドトゥルースのリファレンスリージョンに対応するオブジェクトを表すことと、ハード・ネガティブ・エグザンプルとして、しきい値の信頼スコアを満たすまたは超える第２の信頼スコアを有する特徴マップの第２の一部分を決定することと、ハード・ネガティブ・エグザンプルが非極大抑制の技法の下に抑制される第２のＲＯＩに関連付けられると決定することと、ネガティブエグザンプルのサブセットからハード・ネガティブ・エグザンプルを除外することと、を含む。

【0137】

Ｓ．段落Ｒとしての非一時的なコンピューター読み取り可能な媒体は、第１の一部分の第１のＲＯＩが、バウンディングボックスを含み、第１の一部分の第１の信頼スコアが、第１のＲＯＩがオブジェクトを表す画像のリージョンを正確に表す確率を示すと詳述する。

【0138】

Ｔ．段落ＲまたはＳとしての非一時的なコンピューター読み取り可能な媒体は、特徴マップの第１の一部分が、複数のＲＯＩに関連付けられ、複数のＲＯＩのうちのＲＯＩが、複数の分類に対応し、分類が、車両、自転車運転者、または歩行者を含むと詳述する。

【0139】

Ｕ．システムは、１つまたは複数のプロセッサーと、１つまたは複数のプロセッサーによって実行可能な命令を格納する１つまたは複数のコンピューター読み取り可能な媒体と含み、命令が、実行されると、システムに、第１のスケールを有する画像を受信することと、第１のＭＬ（機械学習）モデルに画像を提供することと、第１のＭＬモデルから、第１のオブジェクトの少なくとも一部分を表す画像の第１のリージョンの示す第１のバウンディングボックスを受信し、第１のバウンディングボックスがサイズの第１の範囲内の第１のサイズを有することと、第２のスケールに少なくとも部分的に基づいて、スケーリングされた画像として画像をスケーリングすることと、第２のＭＬモデルにスケーリングされた画像を提供することと、第２のＭＬモデルから、第２のオブジェクトの少なくとも一部分を表す画像の第２のリージョンの示す第２のバウンディングボックスを受信し、第２のバウンディングボックスがサイズの第２の範囲内の第２のサイズを有することとを含む動作を行わせる。

【0140】

Ｖ．段落Ｕとしてのシステムは、実質的に同時に、画像が第１のＭＬモデルに提供され、スケーリングされた画像が第２のＭＬモデルに提供されると詳述する。

【0141】

Ｗ．段落ＵまたはＶとしてのシステムは、第１のＭＬモデルおよび第２のＭＬモデルが同一のＭＬモデルであると詳述する。

【0142】

Ｘ．段落Ｕ～Ｗのうちのいずれかとしてのシステムは、動作が、ＭＬモデルへの入力として、異なるサイズのオブジェクトを含むトレーニング画像の第１のバッチを提供することと、オブジェクトに関連付けられたグランドトゥルースに少なくとも部分的に基づいて、ＲＯＩサイズの関数としてＭＬモデルの正確度を決定することと、しきい値の正確度を満たすまたは超える正確度に対応するＲＯＩサイズの範囲を特定することに少なくとも部分的に基づいて、サイズの第１の範囲を決定することとに少なくとも部分的に基づいて、ＭＬモデルに対してサイズの第１の範囲を決定することをさらに含むと詳述する。

【0143】

Ｙ．コンピューター実装方法は、第１のスケーリングされた画像および第２のスケーリングされた画像を受信し、第１のスケーリングされた画像および第２のスケーリングされた画像が画像に対応することと、第１のＭＬ（機械学習）モデルへの第１の入力として、第１のスケーリングされた画像を提供することと、第１のＭＬモデルからの第１の出力として、サイズの第１の範囲内のサイズを有する１つまたは複数の第１のＲＯＩ（関心のリージョン）を受信することと、第２のＭＬモデルへの第２の入力として、第２のスケーリングされた画像を提供することと、第２のＭＬモデルからの第２の出力として、サイズの第２の範囲内のサイズを有する１つまたは複数の第２のＲＯＩを受信することとを含む。

【0144】

Ｚ．段落Ｙとしてのコンピューター実装方法は、画像が、第１のオブジェクトおよび第２のオブジェクトの表現を含み、コンピューター実装方法が、第１のＭＬモデルによっておよび第１のスケーリングされた画像に少なくとも部分的に基づいて、第１のオブジェクトを表す第１のＲＯＩおよび第２のオブジェクトを表す第２のＲＯＩを決定することと、第２のＭＬモデルによっておよび第２のスケーリングされた画像に少なくとも部分的に基づいて、第１のオブジェクトを表す第３のＲＯＩおよび第２のオブジェクトを表す第４のＲＯＩを決定することと、をさらに含むと詳述する。

【0145】

ＡＡ．段落Ｚとしてのコンピューター実装方法は、第１のＲＯＩが、サイズの第１の範囲外の第１のサイズを有し、第２のＲＯＩが、サイズの第１の範囲内の第２のサイズを有し、第３のＲＯＩが、サイズの第２の範囲外の第３のサイズを有し、第４のＲＯＩが、サイズの第２の範囲内の第４のサイズを有し、第１のＭＬモデルが第１のＲＯＩを捨て、第２のＲＯＩを出力し、第２のＭＬモデルが、第４のＲＯＩを捨て、第３のＲＯＩを出力すると詳述する。

【0146】

ＡＢ．段落Ｙ～ＡＡのうちのいずれかとしてのコンピューター実装方法は、第１のスケールに少なくとも部分的に基づいて、画像をスケーリングして第１のスケーリングされた画像を生成することと、第２のスケールに少なくとも部分的に基づいて、画像をスケーリングして第２のスケーリングされた画像を生成することとをさらに含むと詳述する。

【0147】

ＡＣ．段落Ｙ～ＡＢのうちのいずれかとしてのコンピューター実装方法は、実質的に同時に、第１のスケーリングされた画像が第１のＭＬモデルに提供され、第２のスケーリングされた画像が第２のＭＬモデルに提供されると詳述する。

【0148】

ＡＤ．段落Ｙ～ＡＣのうちのいずれかとしてのコンピューター実装方法は、１つまたは複数の第１のＲＯＩのうちの第１のＲＯＩに関連付けられた正確度に少なくとも部分的に基づいて、サイズの第１の範囲を決定することをさらに含み、決定することが、オブジェクトを表す画像の領域に関連付けられたグランドトゥルースに少なくとも部分的に基づいて、グランドトゥルースによって定義される領域に対して第１のＲＯＩの正確度を決定することと、しきい値のアライメント度を満たすまたは超える１つまたは複数の第１のＲＯＩに対して決定されたアライメント度に対応するＲＯＩサイズの範囲を特定することに少なくとも部分的に基づいて、サイズの第１の範囲を決定することと、を含むと詳述する。

【0149】

ＡＥ．段落Ｙ～ＡＤのうちのいずれかとしてのコンピューター実装方法は、画像のバッチを受信し、画像のバッチが、第１の予め定義された数の、第１のオブジェクト分類に関連付けられる画像、および第２の予め定義された数の、第２のオブジェクト分類に関連付けられる画像を含むことと、第１のＭＬモデルへの入力として画像のバッチを提供することに少なくとも部分的に基づいて、第１のＭＬモデルをトレーニングし、信頼スコアに少なくとも部分的に基づくとしての第１の予め定義された数の画像および第２の予め定義された数の画像が、第１のＭＬモデルまたは第２のＭＬモデルに関連付けられることと、をさらに含むと詳述する。

【0150】

ＡＦ．非一時的なコンピューター読み取り可能な媒体は、実行されると、１つまたは複数のプロセッサーに、第１のサイズ範囲に関連付けられた第１のＭＬ（機械学習）モデルへの入力として、画像を提供することと、第１のＭＬモデルによっておよび画像に少なくとも部分的に基づいて、第１の複数のＲＯＩ（関心のリージョン）を決定することと、第１の複数のＲＯＩのうちの第１のＲＯＩのサブセットに関する第１の出力を抑制し、第１のＲＯＩのサブセットに関する第１の出力を抑制することは、第１のＲＯＩのサブセットが、第１のサイズ範囲外である第１のサイズに関連付けられると決定すること含むことと、第１のＭＬモデルからの第２の出力として、オブジェクトに関連付けられた１つまたは複数の第１のＲＯＩ、またはオブジェクトの寸法が第１のサイズ範囲外であるという第１のインディケーションを受信することとを含む動作を行わせる命令のセットを有する。

【0151】

ＡＧ．段落ＡＦとしての非一時的なコンピューター読み取り可能な媒体は、オブジェクトの寸法が第１のサイズ範囲外であるという第１のインディケーションを受信することが、第１のＲＯＩのサブセットが第１の複数のＲＯＩのすべてを含むと決定することに少なくとも部分的に基づくと詳述する。

【0152】

ＡＨ．段落ＡＦまたはＡＧとしての非一時的なコンピューター読み取り可能な媒体は、命令が、第２のサイズ範囲に関連付けられた第２のＭＬモデルへの入力として、画像を提供し、第２のＭＬモデルに画像を提供することが、第１のＭＬモデルに画像を提供することと実質的に同時に起こることと、第２のＭＬモデルによって、第２の複数のＲＯＩを決定することと、第２の複数のＲＯＩのうちの第２のＲＯＩのサブセットに関する第３の出力を抑制し、第２のＲＯＩのサブセットを抑制することが、第２のＲＯＩのサブセットのうちの少なくともＲＯＩの一部分が、第２のサイズ範囲外である第２のサイズに関連付けられると決定すること含むことと、第２のＭＬモデルから、オブジェクトに関連付けられた１つまたは複数の第２のＲＯＩ、またはオブジェクトの寸法が第２のサイズ範囲外であるという第２のインディケーションを受信することとをさらに含むと詳述する。

【0153】

ＡＩ．段落ＡＨとしての非一時的なコンピューター読み取り可能な媒体は、オブジェクトに対応するＲＯＩが、画像におけるオブジェクトの寸法、第１のサイズ範囲、および第２のサイズ範囲に少なくとも部分的に基づいて、第１のＭＬモデルまたは第２のＭＬモデルから受信されると詳述する。

【0154】

ＡＪ．段落ＡＨまたはＡＩとしての非一時的なコンピューター読み取り可能な媒体は、第１のＭＬモデルが、第１のサイズ範囲に関連付けられた第１のＭＬモデルに関する第１の正確度に少なくとも部分的に基づいて、第１のサイズ範囲内のサイズを有する１つまたは複数の第１のＲＯＩを出力し、第２のＭＬモデルが、第２のサイズ範囲に関連付けられた第２のＭＬモデルに関する第２の正確度に少なくとも部分的に基づいて、第２のサイズ範囲内のサイズを有する１つまたは複数の第２のＲＯＩを出力すると詳述する。

【0155】

ＡＫ．段落ＡＨ～ＡＪのうちのいずれかとしての非一時的なコンピューター読み取り可能な媒体は、動作が、１つまたは複数の第１のＲＯＩ、または１つまたは複数の第２のＲＯＩに少なくとも部分的に基づいて、自律車両の動きを制御するための軌道を生成することをさらに含むと詳述する。

【0156】

ＡＬ．段落ＡＨ～ＡＫのうちのいずれかとしての非一時的なコンピューター読み取り可能な媒体は、機械学習モデルに少なくとも部分的に基づいて、第１のサイズ範囲および第２のサイズ範囲を選択することをさらに含むと詳述する。

【0157】

ＡＭ．段落ＡＦ～ＡＬのうちのいずれかとしての非一時的なコンピューター読み取り可能な媒体は、動作が、第１のＭＬモデルをトレーニングし、トレーニングすることが、第１のＭＬモデルへの入力として、リファレンスリージョンによって定義される領域に関連付けられたテストオブジェクトを含むテスト画像を提供すること、および第１のＭＬモデルによっておよびテスト画像に少なくとも部分的に基づいて、複数のＲＯＩを決定することとを含むことと、リファレンスリージョンによって定義される領域のうちの領域に対して複数のＲＯＩのアライメント度を決定することと、しきい値のアライメント度を満たすまたは超えるアライメント度の一部に対応するオブジェクトサイズの全長を特定することに少なくとも部分的に基づいて、第１のサイズ範囲を決定することとに少なくとも部分的に基づいて、第１のＭＬモデルに対して第１のサイズ範囲を決定することをさらに含むと詳述する。

【0158】

ＡＮ．段落ＡＦ～ＡＭのうちのいずれかとしての非一時的なコンピューター読み取り可能な媒体は、動作が、画像のバッチを受信し、画像のバッチが、第１の予め定義された数の、第１のオブジェクト分類に関連付けられる画像、および第２の予め定義された数の、第２のオブジェクト分類に関連付けられる画像を含むことと、第１のＭＬモデルへの入力として画像のバッチを提供することに少なくとも部分的に基づいて、第１のＭＬモデルをトレーニングし、第１の予め定義された数および第２の予め定義された数が、第１のＭＬモデルまたは第２のＭＬモデルに関連付けられる信頼スコアに少なくとも部分的に基づくことと、をさらに含むと詳述する。

【0159】

ＡＯ．コンピューター実装方法は、ＭＬ（機械学習）モデルへの入力として、画像を提供することと、ＭＬモデルからの出力として、複数の特徴を含む特徴マップ、信頼スコアを含む複数の特徴のうちの特徴、分類情報、およびＮＭＳ（非極大抑制）の技法にしたがって決定されたＲＯＩ（関心のリージョン）を受信することと、インスタンスセグメンテーションを使用して、同様のＲＯＩを有する特徴のサブセットを関連させることとを含む。

【0160】

ＡＰ．段落ＡＯとしてのコンピューター実装方法は、同様のＲＯＩを有する特徴のサブセットが、ＮＭＳの技法を介して抑制されているとして示される特徴を含むと詳述する。

【0161】

ＡＱ．段落ＡＰとしてのコンピューター実装方法は、第１の特徴に関連付けられた第１のＲＯＩを出力すると決定することが、第１のＲＯＩが、特徴のサブセットに関連付けられた信頼スコアのサブセットのうちの最大の信頼スコアに関連付けられると決定することと、オブジェクトを表すとして画像のリージョンを関連させる第１のＲＯＩを出力することとを含むと詳述する。

【0162】

ＡＲ．段落ＡＯ～ＡＱのうちのいずれかとしてのコンピューター実装方法は、オブジェクトを表すとして画像のピクセルを特定するインスタンスセグメンテーションに対応するマスクを出力することをさらに含むと詳述する。

【0163】

ＡＳ．段落ＡＲとしてのコンピューター実装方法は、ＭＬモデルによって出力されるＲＯＩまたはインスタンスセグメンテーションのうちの１つに少なくとも部分的に基づいて、自律車両の動きを制御するための軌道を生成することをさらに含むと詳述する。

【0164】

ＡＴ．段落ＡＯ～ＡＳのうちのいずれかとしてのコンピューター実装方法は、テスト画像、および関連付けられたグランドトゥルースに少なくとも部分的に基づいて、ＭＬモデルをトレーニングすることをさらに含み、グランドトゥルースが、マスクを特定すると詳述する。

【0165】

ＡＵ．段落ＡＯ～ＡＴのうちのいずれかとしてのコンピューター実装方法は、複数の分類に対応する各特徴に対して、複数のＲＯＩを実質的に同時に出力するＭＬモデルをトレーニングすることをさらに含み、複数の分類が、１つまたは複数の車両、歩行者、または自転車を含むと詳述する。

【0166】

ＡＶ．段落ＡＯ～ＡＵのうちのいずれかとしてのコンピューター実装方法は、ＲＯＩがバウンディングボックスであると詳述する。

【0167】

ＡＷ．システムは、１つまたは複数のプロセッサーと、１つまたは複数のプロセッサーによって実行可能な命令を格納する１つまたは複数のコンピューター読み取り可能な媒体とを含み、命令が、実行されると、システムに、ＭＬ（機械学習）モデルへの入力として、画像を提供することと、ＭＬモデルによって、複数の特徴を含む特徴マップ、ＲＯＩ（関心のリージョン）を含む複数の特徴のうちの特徴、アイデンティフィケーション、および信頼スコアを決定することと、インスタンスセグメンテーションとして、複数の特徴に関連付けられたアイデンティフィケーションに少なくとも部分的に基づく出力画像を出力することと、を含む動作を行わせる。

【0168】

ＡＸ．段落ＡＷとしてのシステムは、特徴のＲＯＩが、ＮＭＳ（非極大抑制）の技法にしたがって決定され、ＮＭＳの技法が、特徴に関連付けられた信頼スコアがしきい値の信頼スコアを満たすまたは超えると決定することと、ＲＯＩがしきい値のアライメント度を満たすまたは超える対応する特徴の対応するＲＯＩに対するアライメント度に関連付けられると決定することと、ＲＯＩとして、対応するＲＯＩを決定することと、アイデンティフィケーションとして、対応する特徴の対応するアイデンティフィケーションを決定することとを含むと詳述する。

【0169】

ＡＹ．段落ＡＷまたはＡＸとしてのシステムは、動作が、オブジェクト分類に関連付けられたオブジェクトを表すとしての画像のピクセルを特定するマスクとして、インスタンスセグメンテーションを出力することをさらに含むと詳述する。

【0170】

ＡＺ．段落ＡＹとしてのシステムは、動作が、マスクに少なくとも部分的に基づいて、自律車両に環境の一部分を横切らせるように構成された軌道を決定することと、自律車両に軌道を提供することとをさらに含むと詳述する。

【0171】

ＢＡ．段落ＡＷ～ＡＺのうちのいずれかとしてのシステムは、動作が、ＭＬモデルへの入力としておよび実質的に同時に、第１の予め定義された数の、第１のオブジェクト分類に関連付けられる画像、および第２の予め定義された数の、第２のオブジェクト分類に関連付けられる画像を含む画像のバッチを提供することに少なくとも部分的に基づいて、ＭＬモデルをトレーニングすることをさらに含み、第１の予め定義された数および第２の予め定義された数が、複数の特徴に関連付けられた１つまたは複数の信頼スコアに少なくとも部分的に基づいて、決定されると詳述する。

【0172】

ＢＢ．段落ＡＷ～ＢＡのうちのいずれかとしてのシステムは、動作が、テスト画像、および関連付けられたグランドトゥルースに少なくとも部分的に基づいて、ＭＬモデルをトレーニングすることをさらに含み、グランドトゥルースが、リファレンスリージョンおよびマスクを特定すると詳述する。

【0173】

ＢＣ．非一時的なコンピューター読み取り可能な媒体は、実行されると、１つまたは複数のプロセッサーに、ＭＬ（機械学習）モデルにおいて画像を受信することと、ＭＬモデルによって、複数の特徴を含む特徴マップ、ＲＯＩ（関心のリージョン）およびアイデンティフィケーションを含む複数の特徴のうちの特徴、画像における１つまたは複数のオブジェクトを示すＲＯＩを決定することと、インスタンスセグメンテーションとして、複数の特徴に関連付けられたアイデンティフィケーションを出力することとを含む動作を行わせる命令のセットを有し、アイデンティフィケーションのうちの一アイデンティフィケーションが、特徴のＲＯＩ、およびＮＭＳ（非極大抑制）の技法に少なくとも部分的に基づいて決定される。

【0174】

ＢＤ．段落ＢＣとしての非一時的なコンピューター読み取り可能な媒体は、特徴のＲＯＩが、対応する特徴の対応するＲＯＩ、特徴、および同一のアイデンティフィケーションを有する対応する特徴に基づいて、ＮＭＳの技法の下に抑制されるかどうかに基づいて、アイデンティフィケーションがさらに決定されると詳述する。

【0175】

ＢＥ．段落ＢＣまたはＢＤとしての非一時的なコンピューター読み取り可能な媒体は、ＲＯＩが、エクステント、および中心の位置を有するバウンディングボックスであると詳述する。

【0176】

ＢＦ．段落ＢＣ～ＢＥのうちのいずれかとしての非一時的なコンピューター読み取り可能な媒体は、特徴マップが、画像の寸法の小部分である寸法を有すると詳述する。

【0177】

ＢＧ．段落ＢＣ～ＢＦのうちのいずれかとしての非一時的なコンピューター読み取り可能な媒体は、動作が、テスト画像、および関連付けられたグランドトゥルースに少なくとも部分的に基づいて、ＭＬモデルをトレーニングすることをさらに含み、グランドトゥルースが、リファレンスリージョンおよびマスクを特定すると詳述する。

【0178】

ＢＨ．段落ＢＧとしての非一時的なコンピューター読み取り可能な媒体は、ＭＬモデルをトレーニングすることが、ＭＬモデルへの入力として、第１の予め定義された数の、第１のオブジェクト分類に関連付けられた画像、および第２の予め定義された数の、第２のオブジェクト分類に関連付けられた画像を含む画像のバッチを提供することを含み、第１の予め定義された数および第２の予め定義された数が、複数の特徴に関する１つまたは複数の信頼レベルに少なくとも部分的に基づくと詳述する。

【0179】

上に説明される例示的な箇条が、ある特定の実装に関して説明されるが、本文書の関連において、さらに、例示的な箇条の内容は、方法、デバイス、システム、コンピューター読み取り可能な媒体、および／または別の実装を介して実装されることが可能であることが理解されるべきである。

【0180】

主題が構造的な特徴および／または方法論的な行為に特有の言葉において説明されたが、添付の特許請求の範囲において定義される主題が、説明される特定の特徴または行為に必ずしも制限されないということは、理解されることである。むしろ、特定の特徴および行為は、特許請求の範囲を実装する例示的なかたちとして開示される。

【0181】

本明細書において説明されるモジュールは、コンピューター読み取り可能な媒体のどんな種類にでも格納されることが可能であり、ソフトウェアおよび／またはハードウェアに実装されることが可能である命令を表す。上に説明される方法および処理のすべては、１つまたは複数のコンピューターもしくはプロセッサーか、ハードウェアか、組み合わせかにより実行されるソフトウェアコードモジュールおよび／またはコンピューター実行可能な命令に具現化され完全に自動化されることが可能である。代替として、いくつかまたはすべての方法は、特殊化されたコンピューターハードウェアに具現化されることが可能である。

【0182】

特に他に述べられていない限り、条件付きの語、例えば、とりわけ、「可能である」、「可能であろう」、「あり得る」、または「あり得るであろう」などは、ある例が、他の例は含まないが、ある特徴、エレメントおよび／またはステップを含むことがある文脈内において理解される。したがって、一般に、上記の条件付きの語は、ある特徴、エレメントおよび／もしくはステップが、１つもしくは複数の例に何らかの点において必要とされることを、または必然的に１つまたは複数の例が、ユーザーの入力もしくはプロンプティングの有無に関わらず、ある特徴、エレメントおよび／またはステップが含まれるかどうか、もしくはどんな特定の例にでも行われるべきであるかどうかを決めるためのロジックを含むことを、暗示することが意図されない。

【0183】

特に他に述べられていない限り、結合的な語、例えば、語句「Ｘ、Ｙ、またはＺのうちの少なくとも１つ」などは、項目、用語などが、各要素の複数の含む、Ｘ、Ｙ、もしくはＺの、またはどんな組み合わせでも、いずれかであることが可能であることを示すことが理解されるべきである。単数として明示的に説明されない限り、「ａ」は、単数および複数を意味する。

【0184】

本明細書において説明されるフロー図における、および／または添付の図面に描かれるどんなルーチンの記述、エレメント、またはブロックでも、ルーチン中の特定の論理関数またはエレメントを実装するために、１つまたは複数のコンピューター実行可能な命令を含むモジュール、セグメント、またはコードの部分を潜在的に表すとして理解されるべきである。代替えの実装は、エレメントまたはファンクションが、当業者に理解されるように含まれる機能に応じて、実質的に同時に、逆の順に、追加の操作とともに、または操作を省略することを含む、示されたまたは述べられたことから削除される、または順不同で実行されることが可能である、本明細書において説明される例の範囲内に含まれる。

【0185】

多くの変形および修正が、上述した例に対してなされることが可能であり、その要素が、他の許容可能な例の中にあるとして理解されるべきであることを強調すべきである。すべての上記の修正および変形は、本明細書において本開示の範囲内に含まれることが意図され、以下の特許請求の範囲によって保護される。

【符号の説明】

【0186】

６００処理
６０２動作
６０４動作
６０６動作
６０８動作
６１０動作
６１４エグザンプル

【図1】