IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2023-17759セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置
<>
  • 特開-セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置 図1
  • 特開-セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置 図2
  • 特開-セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置 図3
  • 特開-セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置 図4
  • 特開-セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置 図5
  • 特開-セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置 図6
  • 特開-セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023017759
(43)【公開日】2023-02-07
(54)【発明の名称】セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置
(51)【国際特許分類】
   G06N 20/00 20190101AFI20230131BHJP
   G06T 7/00 20170101ALI20230131BHJP
【FI】
G06N20/00
G06T7/00 350C
【審査請求】有
【請求項の数】15
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2022143457
(22)【出願日】2022-09-09
(31)【優先権主張番号】202111306870.8
(32)【優先日】2021-11-05
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100099623
【弁理士】
【氏名又は名称】奥山 尚一
(74)【代理人】
【識別番号】100125380
【弁理士】
【氏名又は名称】中村 綾子
(74)【代理人】
【識別番号】100142996
【弁理士】
【氏名又は名称】森本 聡二
(74)【代理人】
【識別番号】100166268
【弁理士】
【氏名又は名称】田中 祐
(74)【代理人】
【識別番号】100218604
【弁理士】
【氏名又は名称】池本 理絵
(72)【発明者】
【氏名】イーパン・スン
(72)【発明者】
【氏名】ロンチャオ・アン
(72)【発明者】
【氏名】シャン・ウェイ
(72)【発明者】
【氏名】ロンチャオ・ワン
(72)【発明者】
【氏名】クン・ヤオ
(72)【発明者】
【氏名】ジュンユ・ハン
(72)【発明者】
【氏名】ジントゥオ・リュウ
(72)【発明者】
【氏名】エールゥイ・ディン
(57)【要約】      (修正有)
【課題】画像識別モデルを効果的、かつ、低コストでトレーニングする方法及び装置、画像識別方法及び装置、電子デバイス並びにコンピューター可読記憶媒体を提供する。
【解決手段】セマンティック増強に基づく画像識別モデルのトレーニング方法は、標識がなく、かつ、テキストの説明がない入力された第1の画像から、第1の画像の第1の特徴表現を抽出する段階と、第1の特徴表現に基づいて、第1の損失関数を計算する段階と、標識がなくかつ元のテキストの説明を有する入力された第2の画像から、第2の画像の第2の特徴表現を抽出する段階と、第2の特徴表現に基づいて、第2の損失関数を計算する段階と、第1の損失関数と第2の損失関数との融合に基づいて、画像識別モデルをトレーニングする段階と、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
セマンティック増強に基づく画像識別モデルのトレーニング方法であって、
標識がなくかつテキストの説明がない入力された第1の画像から、前記第1の画像の第1の特徴表現を抽出する段階と、
前記第1の特徴表現に基づいて、第1の損失関数を計算する段階と、
標識がなくかつ元のテキストの説明を有する入力された第2の画像から、前記第2の画像の第2の特徴表現を抽出する段階と、
前記第2の特徴表現に基づいて、第2の損失関数を計算する段階と、
前記第1の損失関数と前記第2の損失関数との融合に基づいて、画像識別モデルをトレーニングする段階と
を含んでなることを特徴とする、セマンティック増強に基づく画像識別モデルのトレーニング方法。
【請求項2】
前記第1の損失関数と前記第2の損失関数との融合は、特定の重みで前記第1の損失関数および前記第2の損失関数に対して積み重ねることを含むことを特徴とする、請求項1に記載のセマンティック増強に基づく画像識別モデルのトレーニング方法。
【請求項3】
前記第1の画像の第1の特徴表現を抽出する段階は、
画像増強によって前記第1の画像の増強画像ペアを生成する段階と、
前記増強画像ペアからそれぞれ特徴表現を抽出する段階と
を含むことを特徴とする、請求項1に記載のセマンティック増強に基づく画像識別モデルのトレーニング方法。
【請求項4】
第1の損失関数を計算する段階は、
前記増強画像ペアから抽出された特徴表現に基づいて、前記第1の損失関数を計算する段階を含むことを特徴とする、請求項3に記載のセマンティック増強に基づく画像識別モデルのトレーニング方法。
【請求項5】
第2の損失関数を計算する段階は、
前記第2の画像の第2の特徴表現から予測テキストの説明を生成する段階と、
前記予測テキストの説明および前記元のテキストの説明に基づいて、前記第2の損失関数を計算する段階と
を含むことを特徴とする、請求項1に記載のセマンティック増強に基づく画像識別モデルのトレーニング方法。
【請求項6】
画像識別のための方法であって、
被識別画像を取得する段階と、
画像識別モデルに基づいて、前記被識別画像を識別する段階と
を含み、
ここで、前記画像識別モデルは、請求項1~5のいずれか一項に記載のセマンティック増強に基づく画像識別モデルのトレーニング方法に基づいて得られることを特徴とする、画像識別のための方法。
【請求項7】
セマンティック増強に基づく画像識別モデルのトレーニング装置であって、
標識がなくかつテキストの説明がない入力された第1の画像から、前記第1の画像の第1の特徴表現を抽出するように構成される第1の特徴抽出モジュールと、
前記第1の特徴表現に基づいて、第1の損失関数を計算するように構成される第1の計算モジュールと、
標識がなくかつ元のテキストの説明を有する入力された第2の画像から、前記第2の画像の第2の特徴表現を抽出するように構成される第2の特徴抽出モジュールと、
前記第2の特徴表現に基づいて、第2の損失関数を計算するように構成される第2の計算モジュールと、
前記第1の損失関数と前記第2の損失関数との融合に基づいて、画像識別モデルをトレーニングするように構成される融合トレーニングモジュールと
を含んでなることを特徴とする、セマンティック増強に基づく画像識別モデルのトレーニング装置。
【請求項8】
前記融合トレーニングモジュールは、
特定の重みで前記第1の損失関数および前記第2の損失関数に対して積み重ねるようにさらに構成されることを特徴とする、請求項7に記載のセマンティック増強に基づく画像識別モデルのトレーニング装置。
【請求項9】
前記第1の特徴抽出モジュールは、
画像増強によって前記第1の画像の増強画像ペアを生成し、
前記増強画像ペアからそれぞれ特徴表現を抽出する
ようにさらに構成されることを特徴とする、請求項7に記載のセマンティック増強に基づく画像識別モデルのトレーニング装置。
【請求項10】
前記第1の計算モジュールは、
前記増強画像ペアから抽出された特徴表現に基づいて、前記第1の損失関数を計算するようにさらに構成されることを特徴とする、請求項9に記載のセマンティック増強に基づく画像識別モデルのトレーニング装置。
【請求項11】
前記第2の計算モジュールは、
前記第2の画像の第2の特徴表現から予測テキストの説明を生成し、
前記予測テキストの説明および前記元のテキストの説明に基づいて、前記第2の損失関数を計算する
ようにさらに構成されることを特徴とする、請求項7に記載のセマンティック増強に基づく画像識別モデルのトレーニング装置。
【請求項12】
画像識別のための装置であって、
被識別画像を取得するように構成される画像取得モジュールと、
画像識別モデルに基づいて、前記被識別画像を識別するように構成される画像識別モジュールと
を含んでなり、
ここで、前記画像識別モデルは、請求項7~11のいずれか一項に記載のセマンティック増強に基づく画像識別モデルのトレーニング装置に基づいて得られることを特徴とする、画像識別のための装置。
【請求項13】
電子デバイスであって、
前記デバイスは、
一つまたは複数のプロセッサと、
一つまたは複数のプログラムを記憶するための記憶装置とを含み、前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサは、請求項1~6のいずれか一項に記載の方法を実装するものであることを特徴とする、前記電子デバイス。
【請求項14】
コンピューター可読記憶媒体であって、
コンピュータープログラムが記憶され、前記コンピュータープログラムがプロセッサによって実行される場合、請求項1~6のいずれか一項に記載の方法を実装することを特徴とする、コンピューター可読記憶媒体。
【請求項15】
コンピュータープログラムであって、
前記コンピュータープログラムがプロセッサによって実行されると、請求項1~6のいずれか一項に記載の方法を実現させるコンピュータープログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施例は、主に人工知能の技術分野に関し、具体的には、コンピューター視覚および深層学習の技術分野に関し、画像処理、画像識別等のシナリオに適用されることができる。より具体的には、セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置、画像識別のための方法および装置、電子デバイスならびにコンピューター可読記憶媒体に関する。
【背景技術】
【0002】
近年、コンピューターソフトウェアやハードウェア技術の発達に伴い、人工知能や機械学習の分野も大きく進歩している。当該技術も、画像処理および画像識別等のアプリケーションシナリオで広く使用される。これに対して、核心的な問題は、関連するモデルをより効率的、正確、かつ低コストでトレーニングする方法である。
【0003】
現在のトレーニング方法は、主に教師ありトレーニングおよび教師なしトレーニングを含む。具体的に視覚画像の分野において、教師ありトレーニングは、入力画像として標識データを有する多数の画像を必要とする。しかしながら、画像の標識プロセスには多くの人件費がかかり、標識付きのそのような画像を購入することは、非常に高価である。相対的に、教師なしトレーニングは、標識コストを節約できるが、セマンティッカ監視情報が不足しているため、トレーニングされたモデルは、実際のダウンストリームタスクを解決する際の(例えば、画像分類およびオブジェクト検出等である)パフォーマンスが悪い。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示による例示的な実施例は、セマンティック増強に基づく画像識別モデルのトレーニングスキームを提供する。
【課題を解決するための手段】
【0005】
本開示の第1の態様は、セマンティック増強に基づく画像識別モデルのトレーニング方法を提供する。当該方法は、標識がなくかつテキストの説明がない入力された第1の画像から、第1の画像の第1の特徴表現を抽出する段階と、第1の特徴表現に基づいて、第1の損失関数を計算する段階と、標識がなくかつ元のテキストの説明を有する入力された第2の画像から、第2の画像の第2の特徴表現を抽出する段階と、第2の特徴表現に基づいて、第2の損失関数を計算する段階と、および第1の損失関数と第2の損失関数との融合に基づいて、画像識別モデルをトレーニングする段階とを含む。
【0006】
本開示の第2の態様は、画像識別のための方法を提供する。当該方法は、被識別画像を取得する段階と、画像識別モデルに基づいて、被識別画像を識別する段階とを含み、ここで、画像識別モデルは、本開示の第1の態様のセマンティック増強に基づく画像識別モデルのトレーニング方法によって得られる。
【0007】
本開示の第3の態様は、セマンティック増強に基づく画像識別モデルのトレーニング装置を提供する。当該装置は、標識がなくかつテキストの説明がない入力された第1の画像から、第1の画像の第1の特徴表現を抽出するように構成される第1の特徴抽出モジュールと、第1の特徴表現に基づいて、第1の損失関数を計算するように構成される第1の計算モジュールと、標識がなくかつ元のテキストの説明を有する入力された第2の画像から、第2の画像の第2の特徴表現を抽出する第2の特徴抽出モジュールと、第2の特徴表現に基づいて、第2の損失関数を計算する第2の計算モジュールと、および第1の損失関数と第2の損失関数との融合に基づいて、画像識別モデルをトレーニングするように構成される融合トレーニングモジュールとを含む。
【0008】
本開示の第4の態様は、画像識別のための装置を提供する。当該装置は、被識別画像を取得するように構成される画像取得モジュールと、画像識別モデルに基づいて、被識別画像を識別するように構成される画像識別モジュールとを含み、ここで、画像識別モデルは、本開示の第3の態様のセマンティック増強に基づく画像識別モデルのトレーニング装置によって得られる。
【0009】
本開示の第5の態様は、電子デバイスを提供する。当該電子デバイスは、一つまたは複数のプロセッサ、および一つまたは複数のプログラムを記憶するための記憶装置を含み、一つまたは複数のプログラムが一つまたは複数のプロセッサによって実行される場合、一つまたは複数のプロセッサは、本開示による第1の態様および第2の態様の方法を実装するようにする。
【0010】
本開示の第6の態様は、コンピューター可読記憶媒体を提供する。当該コンピューター可読記憶媒体にコンピュータープログラムが記憶される場合、当該プログラムがプロセッサによって実行される場合、本開示による第1の態様および第2の態様の方法を実装する。
【発明の効果】
【0011】
本発明の内容部分に記載される内容は、本開示の実施例の核心的なまたは重要な特徴を限定することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解されるであろう。
【図面の簡単な説明】
【0012】
添付の図面と併せかつ以下の詳細な説明を参照すると、本開示の各実施例の上記および他の特徴、利点および態様は、より明らかになるであろう。図面において、同じまたは類似な参照番号は、同じまたは類似な要素を指す。
図1】本開示の複数の実施例を実装することができるセマンティック増強に基づく画像識別モデルのトレーニングのシステムの模式図を示す。
図2】本開示の複数の実施例を実装することができるセマンティック増強に基づく画像識別モデルのトレーニング方法のフローチャートを示す。
図3】本開示のいくつかの実施例によるセマンティック増強に基づく画像識別モデルのトレーニングのアーキテクチャを示す。
図4】本開示のいくつかの実施例による画像識別のための方法のフローチャートを示す。
図5】本開示のいくつかの実施例によるセマンティック増強に基づく画像識別モデルのトレーニング装置のブロック図を示す。
図6】本開示のいくつかの実施例による画像識別のための装置のブロック図を示す。
図7】本開示の複数の実施例を実施することができるコンピューティングデバイスのブロック図を示す。
【発明を実施するための形態】
【0013】
以下、添付の図面を参照して、本開示の実施例をより詳細に説明する。添付の図面には本開示の特定の実施例が示されているが、本開示は、様々な形態で実装することができ、本明細書に記載の実施例に限定されると解釈されるべきではなく、むしろこれらの実施例は、本開示をより明確かつ完全に理解するために提供されることを理解されたい。本開示の図面および実施例は、例示的な目的のみを目的としており、本開示の保護範囲を制限することを意図するものではないことを理解されたい。
【0014】
本開示の実施例の説明において、「含む」という用語およびその類似な用語は、開放型包含、即ち「含むがこれらに限定されない」と理解されるべきである。「に基づく」という用語は、「少なくとも部分的に基づく」と理解されるべきである。「一実施例」または「当該実施例」という用語は、「少なくとも一つの実施例」と理解されるべきである。「第1の」および「第2の」等の用語は、異なるまたは同じオブジェクトを指すことができる。以下の明細書は、他の明示的および暗黙的な定義をさらに含むことができる。
【0015】
画像に基づくモデルトレーニングにおいて、実行可能なスキームは、標識情報を有するサンプル画像の教師ありトレーニング方法を使用することであり、それは、多数の画像の特徴表現を抽出および要約し、特徴表現と標識情報との間の関連付けを構築する。しかしながら、教師ありトレーニング方法は、多数の標識データに依存され、画像標識には、多数の時間がかかり、これらのデータは、効果でありかつ容易に得られることはできない。
【0016】
別の実行可能なスキームは、標識がないサンプル画像を使用する教師なしトレーニング方法であり、それは、より低い標識コストで比較的満足のいく結果を得ることができる。例えば、対照学習に基づく自己監視型トレーニングにおいて、標識がないサンプル画像の簡単な増強によって増強画像ペアを生成し、増強画像ペアに対する比較および要約によってトレーニングする。しかし、このようにトレーニングして得られた特徴表現は、関連するセマンティッカ情報が不足しているため、画像分類の処理またはオブジェクトの検出等のタスクの効果が良くない。
【0017】
先行技術における一つまたは複数の技術的問題を解決するために、本開示による例示的な実施例は、セマンティック増強に基づく画像識別モデルのトレーニングスキームを提案する。具体的には、標識がなくかつテキストの説明がない入力された第1の画像から、第1の画像の第1の特徴表現を抽出して、第1の損失関数を計算し、また標識がなくかつ元のテキストの説明を有する入力された第2の画像から、第2の画像の第2の特徴表現を抽出して、第2の損失関数を計算することにより、第1の損失関数と第2の損失関数との融合に基づいて、画像識別モデルをトレーニングする。
【0018】
本開示による実施例は、標識がないサンプル画像およびテキストの説明を有するサンプル画像を同時に使用してトレーニングモデルすることにより、標識がないサンプル画像のみを使用してトレーニングする方法と比較して、セマンティック増強を達成する。このような方法を通じて、標識がない画像と対応するテキストの説明とが相互に関連付けられることにより、セマンティッカ情報を有する特徴表現を得る。セマンティッカ情報を有するこのような特徴表現は、ダウンストリームタスクを処理する時に(例えば、画像分類またはオブジェクト検出等)より優れた効果を有する。同時に、画像に対して標識がある必要性が減り、これにより標識データのコストが高く、標識データの取得が難しい問題が克服される。
【0019】
以下、添付の図面を参照して、本開示の実施例を具体的に説明する。
【0020】
図1は、本開示の複数の実施例を実装することができるセマンティック増強に基づく画像識別モデルのトレーニングシステム100の模式図を示す。システム100において、コンピューティングデバイス110は、多数の画像を使用して画像識別モデル140をトレーニングして,トレーニングされた画像識別モデルを得るように構成される。画像識別モデル140は、例えば、画像を分類したり、オブジェクトを検出したりするように構築されることができる。本開示において、トレーニングに使用される画像は、二つのタイプ、即ち、標識がない画像およびテキストの説明を有する画像を含む。以下の説明の便宜上、標識がない画像は、第1の画像120と呼ばれ、テキストの説明を有する画像は、第2の画像130と呼ばれる。
【0021】
コンピューティングデバイス110は、画像識別を実装するために適切なソフトウェアおよびハードウェアで構成されることができる。コンピューティングデバイス110は、任意のタイプのサーバーデバイス、モバイルデバイス、固定デバイスまたはポータブルデバイスであり得、サーバー、メインフレーム、計算ノード、エッジノード、携帯電話、インターネットノード、コミュニケーター、デスクトップ、ラップトップ、ノートブック、ネットブック、タブレットコンピューター、パーソナル通信システム(PCS)デバイス、マルチメディアコンピューター、マルチメディアタブレットまたはそれらの任意の組み合わせを含み、これらのデバイスの部品および周辺機器またはその任意の組み合わせを含む。
【0022】
異なる画像120、130は、異なるオブジェクトを含むことができる。本明細書において、「オブジェクト」とは、任意のヒトまたは物を指すことができる。例えば、示される模式図において、第1の画像120は、歩行者122および自動車124を含み、第2の画像130は、歩行者132、自動車134および関連するテキストの説明136を含む。本明細書において、「テキストの説明」は、単語または複数の単語の組み合わせであってもよく、一つの文または複数の文であってもよい。さらに、「テキストの説明」は、言語によって制限されず、例えば、中国語や英語等であってもよく、文字または記号を含むこともできる。
【0023】
画像識別モデル140は、機械学習アルゴリズムに基づいて構築することができ、例えば、一つまたは複数のタイプのニューラルネットワークまたは他の深層学習ネットワークを含むように構築されることができる。画像識別モデル140の具体的な構成および採用された機械学習アルゴリズムは、本開示において制限されない。画像識別の能力を取得するために、トレーニング画像120、130を使用してトレーニングプロセスを実行して、画像識別モデル140のパラメーターセットの値を決定する必要がある。パラメーターセットの値が決定された後の画像識別モデル140は、トレーニングされた画像識別モデル140と呼ばれる。
【0024】
トレーニングして得られた画像識別モデル140の性能は、トレーニングデータセットに大きく依存する。トレーニングデータが変化可能な様々な証券をカバーする場合、トレーニングする時に画像識別モデルは、これらの条件下で特徴表現を抽出する能力を学習する可能性が高く、パラメーターセットの値がより正確になる。従って、本開示において、トレーニング効果およびサンプル取得コストのバランスをとるために、標識がない画像およびテキストの説明を有する画像を同時に使用することは、モデルのトレーニングに有利する。
【0025】
図2は、本開示のいくつかの実施例によるセマンティック増強に基づく画像識別モデルのトレーニング方法200のフローチャートを示す。トレーニング方法200は、図1におけるコンピューティングデバイス110によって実装することができる。
【0026】
ブロック202において、コンピューティングデバイス110は、標識がなくかつテキストの説明がない入力された第1の画像から、第1の画像の第1の特徴表現を抽出する。当該第1の特徴表現は、例えば、画像120に含まれる歩行者122および自動車124であってもよい。しかし、画像120は標識がないため、歩行者122および自動車124は、対応するテキストの説明を有さない。
【0027】
いくつかの実施例において、第1の画像の第1の特徴表現を抽出することは、まず画像増強によって第1の画像の増強画像ペアを生成し、次に増強画像ペアからそれぞれ特徴表現を抽出することができる。本明細書において、「増強画像ペア」とは、一つの元の画像に基づいて異なる増強方法で生成された二つの増強後の画像を指す。増強方法は、例えば、画像のグレースケール、明るさ、コントラスト等の属性に対する処理および平滑化を含み、それによって画像の鮮明度を向上する。
【0028】
ブロック204において、コンピューティングデバイス110は、抽出された第1の特徴表現に基づいて、第1の損失関数を計算する。
【0029】
いくつかの実施例において、第1の損失関数を計算することは、増強画像ペアから抽出された特徴表現に基づいて、第1の損失関数を計算することができる。
【0030】
ブロック206において、コンピューティングデバイス110は、標識がなくかつ元のテキストの説明を有する入力された第2の画像から、第2の画像の第2の特徴表現を抽出する。標識がなくかつ元のテキストの説明を有するこのような画像は、例えば、データマイニングによって取得できるため、手動で標識を付する必要はない。例えば、第2の特徴表現は、画像130における歩行者132および自動車134であってもよく、元のテキストの説明は、図130に対応する説明136、即ち、「歩行者が道路脇に駐車された自動車を通る」ことであってもよい。
【0031】
ブロック208において、コンピューティングデバイス110は、抽出された第2の特徴表現に基づいて、第2の損失関数を計算する。
【0032】
いくつかの実施例において、第2の損失関数を計算することは、まず第2の画像の第2の特徴表現から予測テキストの説明を生成し、次に予測テキストの説明および元のテキストの説明に基づいて、第2の損失関数を計算することができる。例えば、画像-言語翻訳機を使用して予測テキストの説明を取得することができる。図1に示される場合、このような「予測テキストの説明」は、「人」、「歩行者」、「通行人」、「車両」、「自動車」、「自動車両」等の単語またはそれらの組み合わせであってもよく、「人および自動車」、「人が自動車の横にいる」、「人が自動車を通る」等のフレーズであってもよく、「歩行している人および止められた自動車」等の修飾子を有する記述であってもよい。例えば、様々なアルゴリズムに基づいて、予測テキストの説明と元のテキストの説明との間の類似性を評価して、第2の損失関数を計算することができる。
【0033】
ブロック210において、コンピューティングデバイス110は、第1の損失関数と第2の損失関数との融合に基づいて、画像識別モデルをトレーニングする。「融合」は、例えば、二つの関数の線形結合であり得る。
【0034】
いくつかの実施例において、第1の損失関数と第2の損失関数との融合は、特定の重みで第1の損失関数および第2の損失関数を積み重ねる。二つの損失関数の重みは、同じでも異なってもいてもよい。
【0035】
図3は、本開示の複数の実施例を実装することができるセマンティック増強に基づく画像識別モデルをトレーニングするためのアーキテクチャ300を示す。アーキテクチャ300は、標識がない画像に基づく自己監視型トレーニングブランチおよびテキストの説明を有する画像に基づく言語監視型トレーニングブランチを含む。本開示の実施例において、自己監視型トレーニングと言語監視型トレーニングとの二つのブランチの融合により、異種視覚トレーニングを実装し、最終的に高レベルのセマンティッカ情報を有する視覚的特徴表現を取得することができる。
【0036】
図3の左側の自己監視型トレーニングブランチにおいて、入力されたのは、多数の標識がない画像310で構成されたデータセットである。データセット中の画像ごとに、画像増強によって二つの幅増強画像320、322を生成する。次に、増強画像320、322は、特徴抽出器に入力されて、それぞれ抽出して視覚的特徴表現330、332を取得する。複数の標識がない画像310中の同じ標識がない画像からの特徴表現は、一対の正のサンプルとして定義され、複数の標識がない画像310中の異なる標識がない画像からの特徴表現は、一対の負のサンプルとして定義される。
【0037】
いくつかの実施例において、特徴抽出部分は、畳み込みニューラルネットワーク(CNN)に基づくモデルを利用して、画像の特徴抽出を実装する。CNNに基づくモデルにおいて、隠れ層は、通常入力に対して畳み込み操作を実行する一つまたは複数の畳み込み層を含む。畳み込み層に加えて、CNNに基づくモデル中の隠れ層は、励起関数を使用して入力に対して非線形マッピングを実行する一つまたは複数の励起層を含むこともできる。一般的に使用される励起関数は、例えば、修正線形ユニット(ReLu)、tanh関数等を含む。いくつかのモデルにおいて、一つまたは複数の畳み込み層の後に一つの励起層が接続される可能性がある。さらに、CNNに基づくモデル中の隠れ層は、データおよびパラメーターの量を圧縮して過剰適合を減少させるためのプーリング(pooling)層を含むこともできる。プーリング層は、最大プーリング(max pooling)層、平均プーリング(average pooling)層等を含むことができる。プーリング層は、連続する畳み込み層の中間に接続されることができる。さらに、CNNに基づくモデルは、完全接続層を含むことができ、完全接続層は、通常、出力層の上流に設置される。
【0038】
CNNに基づくモデルは、深層学習の分野でよく知られている技術であり、ここでは繰り返さない。異なるモデルにおいて、畳み込み層、励起層および/またはプーリング層のそれぞれの数、各層の処理ユニットの数および構成、ならびに各層の間の相互接続関係は、異なる変化を有することができる。いくつかの例において、ResNet-50、inception_v3、GoogleNet等のCNN構造を利用して、画像の特徴抽出を実装することができる。もちろん、現在使用されているまたは将来開発される様々なCNN構造は、画像の特徴表現を抽出するために使用されることができることを理解されたい。本開示の実施例の範囲は、この態様に関しては制限されない。
【0039】
いくつかの実施例において、画像識別モデルは、リカレントニューラルネットワーク(RNN)に基づくモデルを使用して実装することができる。RNNに基づくモデルにおいて、隠れ層の出力は、入力に関連するだけでなく、隠れ層の前の瞬間の出力にも関連する。RNNに基づくモデルは、記憶機能を有して、モデルの前(前のモーメント)の出力を記憶し、フィードバックを実行して現在の入力とともに現在のモーメントの出力を生成できる。隠れ層の中間出力は、中間状態または中間処理結果と呼ばれることもある。従って、隠れ層の最終出力は、現在の入力と過去の記憶との合計の処理結果と見なすことができる。RNNに基づくモデルが使用できる処理ユニットは、例えば、長短期記憶(LSTM)ユニット、ゲート付き回帰ユニット(GRU)等を含む。RNNに基づくモデルは、深層学習の分野でよく知られている技術であり、ここでは繰り返さない。選択されたリカレントアルゴリズムの異なりに応じて、RNNに基づくモデルは、異なる変形を有することができる。現在使用されているか、または将来開発される様々なRNN構造は、いずれも本開示の実施例に使用されることができることを理解されたい。
【0040】
複数の標識がない画像310の正および負のサンプルペアに基づいて、自己監視型トレーニングブランチの第1の損失関数(対照損失関数とも呼ばれる)を計算することができる。例えば、InfoNCEを対照損失関数として使用することができる。
【0041】
式1:
【数1】
【0042】
ここで、I[k≠i]は、評価インデックス関数を示し、kがiに等しくない場合は、1であり、かつkがiに等しい場合は、0であり、Kは、トレーニングデータセット中の標識がない画像の総数を表し、I およびI は、トレーニングデータセット中の標識がない任意の画像Iに対して画像増強を実行することによって二つの増強画像を取得することを表し、f およびf は、I およびI からそれぞれ抽出された特徴表現を表し、一対の正のサンプルとして定義され、I およびI は、トレーニングデータセット中の標識がない別の画像Iに対して画像増強を実行することによって二つの増強画像を取得することを表し、f およびf は、I およびI からそれぞれ抽出された特徴表現を表し、異なる画像からの特徴表現f およびf は、一対の負のサンプルとして定義され、τは、温度パラメーターを表し、τが減少する場合、元の差が増幅され、差がより鮮明にかつ明白になる。
【0043】
図3の右側の言語監視型トレーニングブランチにおいて、入力されたのは、元のテキストの説明を有する多数の画像312で構成されたデータセットであり、それは、画像部分324およびテキストの説明部分326を含む。画像312中のテキストの説明は、手動で標識を付する必要がなく、データマイニングを介してネットワーク中から取得することができる。このようなテキストの説明は、画像に関連するより豊富なセマンティッカ情報を提供することができ、画像のクラスラベルおよびバウンディングボックスの標識よりも簡単に収集することができる。特徴抽出器は、画像312の画像部分324から抽出して特徴表現334を取得する。
【0044】
次に、当該特徴表現334は、画像-言語翻訳機に入力されることにより、予測テキストの説明340を取得する。具体的には、翻訳機は、注意力に基づくメカニズムを利用して、各時間段階で空間的に重み付けされたコンテキストベクトルを集約することができ、RNNデコーダーを利用して、各空間位置での前のデコーダーの状態と視覚的特徴との間の注意力の重みを計算する。重み付けされた2D特徴を合計して、最新のコンテキストベクトルを取得し、最新のデコーダー状態および予測単語を生成する。
【0045】
例えば、ResNet-50をモデル構造として使用する場合、各段階でのsoft-maxによって予測単語の確率を出力する。図3に示されるように、視覚的特徴表現334gを入力として使用し、注意力に基づくメカニズムを利用して、空間的特徴を単語シーケンスy={y}t=1に変換するために使用され、ここで、yおよびTは、それぞれ埋め込み単語および文yの長さである。時間段階tでのデコードプロセスにおいて、注意力メカニズムおよびRNNデコーダーを利用して隠れ状態hを更新し、yt-1を入力として指定して、単語yを予測する。次に完全接続層およびsoft-max損失関数を使用して、出力yの確率を計算する。画像から言語への翻訳のための第2の損失関数(監視損失関数Lsとも呼ばれる)は、次のように定義することができる。
【0046】
式2:
【数2】
【0047】
ここで、cは、注意力メカニズムによって計算される時間段階tでのコンテキストベクトルを表し、gは、画像212の画像部分224から抽出された視覚的特徴表現を表し、yは、埋め込み単語の長さを表し、Tは、文yの長さを表し、hは、時間段階tでのデコードプロセス中の隠れ状態を表し、ここで、入力としてyt-1が与えられる場合、画像部分224に関連する単語yが予測される。
【0048】
最後に、エンドツーエンドの方法で二つのブランチをトレーニングするために、本開示の実施例は、二つのトレーニングブランチの損失関数を融合し、例えば、視覚トレーニングブロックフレームワーク全体の最終損失関数は、次のように定義されることができる。
【0049】
式3:
【数3】
【0050】
ここで、αは、自己監視型トレーニングブランチの対照損失LCおよび言語監視型トレーニングブランチの監視損失Lsを融合するためのパラメーターを表す。
【0051】
本開示の実施例は、標識がない画像およびテキストの説明を有する画像を同時に使用してトレーニングして、セマンティッカ情報を有する特徴表現を取得することにより、標識がない画像のみを使用してトレーニングする方法と比較して、セマンティック増強を達成する。トレーニング画像のタイプが多様であるため、トレーニングされた画像識別モデルのロバストネスがより高く、性能がより良い。このようなモデルは、特徴表現を具体的なセマンティッカ情報と相関させることにより、様々なシナリオでの画像処理タスクをより正確に実行することができる。
【0052】
本開示のモデルアーキテクチャを説明するために使用される上記の式およびモデルのタイプは、すべて例示的なものであり、損失関数の定義にも、他の変形が存在することができ、本開示の実施例の範囲は、この態様で制限されないことを理解されたい。
【0053】
図4は、本開示のいくつかの実施例による画像識別のための方法400のフローチャートを示す。方法400は、図1におけるコンピューティングデバイス110によって実装される。
【0054】
ブロック402において、コンピューティングデバイス110は、被識別画像を取得する。ブロック404において、コンピューティングデバイス110は、画像識別モデルに基づいて、被識別画像を識別し、ここで、画像識別モデルは、トレーニング方法200に基づいて取得される。
【0055】
図5は、本開示のいくつかの実施例によるセマンティック増強に基づく画像識別モデルのトレーニング装置500のブロック図を示す。トレーニング装置500は、図1のコンピューティングデバイス110に含まれるか、またはコンピューティングデバイス110として実装されることができる。
【0056】
図5に示されるように、トレーニング装置500は、標識がなくかつテキストの説明がない入力された第1の画像から、第1の画像の第1の特徴表現を抽出するように構成される、第1の特徴抽出モジュール502を含む。トレーニング装置500は、第1の特徴表現に基づいて、第1の損失関数を計算するように構成される、第1の計算モジュール504をさらに含む。トレーニング装置500は、標識がなくかつ元のテキストの説明を有する入力された第2の画像から、第2の画像の第2の特徴表現を抽出するように構成される、第2の特徴抽出モジュール506をさらに含む。トレーニング装置500は、第2の特徴表現に基づいて、第2の損失関数を計算するように構成される、第2の計算モジュール508をさらに含む。トレーニング装置500は、第1の損失関数と第2の損失関数との融合に基づいて、画像識別モデルをトレーニングするように構成される、融合トレーニングモジュール510をさらに含む。
【0057】
いくつかの実施例において、融合トレーニングモジュールは、特定の重みで第1の損失関数および第2の損失関数に対して積み重ねるように構成されることもできる。
【0058】
いくつかの実施例において、第1の特徴抽出モジュールは、画像増強により第1の画像の増強画像ペアを生成し、増強画像ペアからそれぞれ特徴表現を抽出するように構成されることもできる。
【0059】
いくつかの実施例において、第1の計算モジュールは、増強画像ペアから抽出された特徴表現に基づいて、第1の損失関数を計算するように構成されることもできる。
【0060】
いくつかの実施例において、第2の計算モジュールは、第2の画像の第2の特徴表現から予測テキストの説明を生成し、予測テキストの説明および元のテキストの説明に基づいて、第2の損失関数を計算するように構成されることもできる。
【0061】
図6は、本開示のいくつかの実施例による画像識別のための装置600のブロック図を示す。装置600は、図1のコンピューティングデバイス110に含まれるか、またはコンピューティングデバイス110として実装されることができる。
【0062】
図6に示されるように、装置600は、被識別画像を取得するように構成される、画像取得モジュール602を含む。装置600は、画像識別モデルに基づいて、被識別画像を識別するように構成される、画像識別モジュール604をさらに含み、ここで、画像識別モデルは、トレーニング装置500に基づいて取得される。
【0063】
図7は、本開示の実施例を実施するために使用されることができる例示的なデバイス700の例示的なブロック図を示す。デバイス700は、図1のコンピューティングデバイス110を実装するために使用されることができる。図面に示されるように、デバイス700は、コンピューティングユニット701を含み、それは、読み取り専用メモリ(ROM)702に記憶されるか、または記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされるコンピュータープログラム命令に従って、様々な適切な行為および処理を実行することができる。RAM703において、デバイス700の操作に必要な様々なプログラムおよびデータをさらに記憶することができる。コンピューティングユニット701、ROM702およびRAM703は、バス704を介して互いに接続される。入力/出力(I/O)インターフェース705も、バス704に接続される。
【0064】
デバイス700の複数の部品がI/Oインターフェース705に接続され、例えば、キーボード、マウス等の入力ユニット706、様々なタイプのディスプレイ、スピーカー等の出力ユニット707、磁気ディスク、光ディスク等の記憶ユニット708、ならびにネットワークカード、モデム、無線通信トランシーバ等の通信ユニット709を含む。通信ユニット709は、デバイス700が、インターネットのコンピューターネットワークおよび/または様々な電気通信ネットワーク等の他のデバイスを介して情報/データを交換することを可能にする。
【0065】
コンピューティングユニット701は、処理およびコンピューティング能力を有する様々な汎用および/または専用処理コンポーネントであり得る。コンピューティングユニット701のいくつかの例は、中央処理装置(CPU)、グラフィックス処理装置(GPU)、様々な専用人工知能(AI)コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々なコンピューティングユニット、デジタルシグナルプロセッサ(DSP)、ならびに任意な適切なプロセッサ、コントローラ、マイクロコントローラ等を含むがこれらに限定されない。コンピューティングユニット701は、上記で説明された様々な方法および処理、例えば、方法500を実行する。例えば、いくつかの実施例において、方法500は、記憶ユニット708等の機械可読媒体上に具体的に含まれるコンピューターソフトウェアプログラムとして実装されることができる。いくつかの実施例において、コンピュータープログラムの一部または全部は、ROM702および/または通信ユニット709を介して、デバイス700にロードおよび/またはインストールされることができる。コンピュータープログラムがRAM703にロードされかつコンピューティングユニット701によって実行される場合、上記で説明された方法500の一つまたは複数の段階を実行することができる。選択可能に、他の実施例において、コンピューティングユニット701は、他の任意の適切な方法で(例えば、ファームウェアによって)方法500を実行するように構成されることができる。
【0066】
本明細書において、上記で説明された機能は、少なくとも部分的に、一つまたは複数のハードウェア論理部品によって実行されることができる。例えば、非限定的には、使用できる例示的なタイプのハードウェアロジック部品は、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)等を含む。
【0067】
本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせでコードすることができる。これらのプログラムコードは、汎用コンピューター、専用コンピューターまたは他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供して、プロセッサまたはコントローラによって実行される際に、プログラムコードがフローチャートおよび/またはブロック図に規定された機能/操作を実行させる。プログラムコードは、完全に機器で、一部の機器で、独立したソフトウェアパッケージとしての一部の機器で、部分的にリモート機器で、または完全にリモート機器で、またはサーバーで実行されることができる。
【0068】
本開示のコンテキストにおいて、機械可読媒体は、有形媒体であってもよく、それは、命令実行システム、装置、デバイスによって使用されるか、または命令実行システム、装置、デバイスに結合して使用されるためのプログラムを含むかまたは記憶することができる。機械可読媒体は、機器可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、または半導体システム、装置またはデバイス、または上記の内容の任意の組み合わせを含むことができるがこれらに限定されない。機械可読記憶媒体のより具体的な例としては、一つまたは複数のワイヤに基づく電気的接続、ポータブルコンピューターディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光ストレージデバイス、磁気ストレージデバイス、または上記の内容の任意の組み合わせを含むことができる。
【0069】
さらに、特定の順序で操作を示したが、これは、そのような操作が示される特定の順序または連続した順序で実行されること、あるいは望ましい結果を達成するためにすべての示される操作が実行されるべきであることを要求することを理解されるべきである。一定の環境下で、マルチタスクおよび並列処理は、有利な場合がある。同様に、上記の議論は、いくつかの実装固有の詳細を含むが、これらは、本開示の範囲に対する制限として解釈されるべきでない。別個の実施例のコンテキストで説明された特定の特徴は、単一の実装で組み合わせて実装することができる。逆に、単一の実装のコンテキストで説明された様々な特徴は、複数の実装で、別個にまたは任意の適切なサブ組み合わせで実装することもできる。
【0070】
構造的特徴および/または方法の論理的行為に固有の言語で主題を説明したが、添付の特許請求の範囲で定義される主題は、必ずしも上記の特定の特徴または行為に限定されないことを理解されたい。むしろ、上記で説明された特定の特徴および行為は、特許請求を実施するための単なる例示的な形態である。
図1
図2
図3
図4
図5
図6
図7
【外国語明細書】