IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京沃▲東▼天▲駿▼信息技▲術▼有限公司の特許一覧

特表2024-513596画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体
<>
  • 特表-画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体 図1
  • 特表-画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体 図2
  • 特表-画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体 図3
  • 特表-画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体 図4
  • 特表-画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-26
(54)【発明の名称】画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240318BHJP
   G06T 7/70 20170101ALI20240318BHJP
【FI】
G06T7/00 350C
G06T7/70 A
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023563039
(86)(22)【出願日】2022-04-15
(85)【翻訳文提出日】2023-12-12
(86)【国際出願番号】 CN2022086976
(87)【国際公開番号】W WO2022218396
(87)【国際公開日】2022-10-20
(31)【優先権主張番号】202110410920.0
(32)【優先日】2021-04-16
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】522380893
【氏名又は名称】北京沃▲東▼天▲駿▼信息技▲術▼有限公司
【氏名又は名称原語表記】Beijing Wodong Tianjun Information Technology Co.,Ltd.
【住所又は居所原語表記】Room A402,4/f,No.2 Building,No.18 Kechuang 11th Street,Economic and Technological Development Zone,Beijing 100176,China
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】陶 大程
(72)【発明者】
【氏名】王 文
(72)【発明者】
【氏名】▲ザイ▼ ▲偉▼
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096CA02
5L096DA01
5L096DA02
5L096FA16
5L096FA32
5L096FA33
5L096FA69
5L096HA11
5L096JA22
5L096KA04
5L096KA15
5L096MA07
(57)【要約】
本開示は、コンピュータの技術分野に関し、画像処理方法および装置ならびにコンピュータ可読ストレージ媒体に関する。本開示の方法は、ソースドメイン画像のソースドメイン内容表現およびターゲットドメイン画像のターゲットドメインスタイル表現を取得するステップと、複数の新しいスタイル表現を生成し、ソースドメイン内容表現およびターゲットドメインスタイル表現を更新するステップと、複数の新しいスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって第1の画像を生成し、更新されたターゲットドメインスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって第2の画像を生成するステップと、訓練された物体検出モデルを取得するために第1の画像、第2の画像、およびソースドメイン画像を使用して物体検出モデルを訓練するステップとを含む。
【特許請求の範囲】
【請求項1】
ソースドメイン画像のソースドメイン内容表現およびターゲットドメイン画像のターゲットドメインスタイル表現を取得するステップと、
互いに異なる複数の新しいスタイル表現が、前記ソースドメイン画像のソースドメインスタイル表現および前記ターゲットドメインスタイル表現と異なっており、前記複数の新しいスタイル表現と前記ソースドメイン内容表現とを組み合わせることによって生成された画像が、前記ソースドメイン画像と意味的に一貫していることを目的として、前記複数の新しいスタイル表現を生成し、前記ソースドメイン内容表現および前記ターゲットドメインスタイル表現を更新するステップと、
前記複数の新しいスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって第1の画像を生成し、更新されたターゲットドメインスタイル表現を前記更新されたソースドメイン内容表現と組み合わせることによって第2の画像を生成するステップと、
訓練された物体検出モデルを取得するために前記第1の画像、前記第2の画像、および前記ソースドメイン画像を使用して物体検出モデルを訓練するステップと、
を含む画像処理方法。
【請求項2】
ソースドメイン画像のソースドメイン内容表現およびターゲットドメイン画像のターゲットドメインスタイル表現を取得するステップが、
内容エンコーダを使用して前記ソースドメイン画像の前記ソースドメイン内容表現を抽出することと、
スタイルエンコーダを使用して前記ターゲットドメイン画像の前記ターゲットドメインスタイル表現を抽出することと、
を含む請求項1に記載の画像処理方法。
【請求項3】
前記スタイルエンコーダが、スタイル表現抽出ネットワークおよびクラスタリングモジュールを含み、スタイルエンコーダを使用して前記ターゲットドメイン画像の前記ターゲットドメインスタイル表現を抽出することが、
前記ターゲットドメイン画像の基本スタイル表現を取得するために前記スタイル表現抽出ネットワークに前記ターゲットドメイン画像を入力することと、
前記ターゲットドメインスタイル表現としてクラスタリングの中心の表現ベクトルを取得するためのクラスタリングのために前記クラスタリングモジュールに前記ターゲットドメイン画像の前記基本スタイル表現を入力することと、
を含む請求項2に記載の画像処理方法。
【請求項4】
複数の新しいスタイル表現を生成するステップが、
予め設定された数の新しいスタイル表現をランダムに生成し、第1の転移画像を取得するために生成ネットワークに前記新しいスタイル表現および前記ソースドメイン内容表現を入力することと、
第2の転移画像を取得するために前記生成ネットワークに前記ターゲットドメインスタイル表現および前記ソースドメイン内容表現を入力することと、
前記第1の転移画像と前記ソースドメイン画像との間のスタイルの差、および前記第1の転移画像と前記第2の転移画像との間のスタイルの差に従って第1の損失関数を決定することであって、前記第1の損失関数が、前記新しいスタイル表現と前記ソースドメインスタイル表現との間の差、および前記新しいスタイル表現と前記ターゲットドメインスタイル表現との間の差を表すために使用される、決定することと、
前記第1の転移画像の間のスタイルの差に従って第2の損失関数を決定することであって、前記第2の損失関数が、前記新しいスタイル表現の間の差を表すために使用される、決定することと、
前記第1の転移画像の意味表現と前記ソースドメイン画像の意味表現との間の差に従って第3の損失関数を決定することであって、前記第3の損失関数が、前記ソースドメイン画像と、前記新しいスタイル表現と前記ソースドメイン内容表現とを組み合わせることによって生成された前記画像との間の意味的な差を表すために使用される、決定することと、
前記複数の新しいスタイル表現を取得するために、前記目的に対応する予め設定された収束条件が満たされるまで、前記第1の損失関数、前記第2の損失関数、および前記第3の損失関数に従って前記新しいスタイル表現を調整することと、
を含む請求項2に記載の画像処理方法。
【請求項5】
前記ソースドメイン内容表現および前記ターゲットドメインスタイル表現を更新するステップが、
前記目的に対応する前記予め設定された収束条件が満たされるまで、前記第1の損失関数、前記第2の損失関数、および前記第3の損失関数に従って前記内容エンコーダ、前記スタイルエンコーダ、および前記生成ネットワークのパラメータを調整することと、
前記目的に対応する前記予め設定された収束条件が満たされる場合、前記内容エンコーダによって出力されたソースドメイン内容表現を、前記更新されたソースドメイン内容表現とし、前記スタイルエンコーダによって出力されたターゲットドメインスタイル表現を、前記更新されたターゲットドメインスタイル表現とすることと、
を含む請求項4に記載の画像処理方法。
【請求項6】
前記第1の転移画像のいずれかと、前記第1の転移画像の前記いずれかに対応するソースドメイン画像とを、それぞれ、第1の参照画像および第2の参照画像とするか、または前記第1の転移画像の前記いずれかと、前記第1の転移画像の前記いずれかに対応する第2の転移画像とを、それぞれ、前記第1の参照画像および前記第2の参照画像とするか、または第1の転移画像のうちの任意の2つを、それぞれ、前記第1の参照画像および前記第2の参照画像として、前記第1の参照画像と前記第2の参照画像との間のスタイルの差が、以下の方法、
前記第1の参照画像および前記第2の参照画像を、事前に訓練された表現抽出ネットワークの複数の予め設定された表現層に入力することと、
前記複数の予め設定された表現層の各々に関して、前記複数の予め設定された表現層の前記各々によって出力された前記第1の参照画像の表現の平均値および分散を第1の平均値および第1の分散として決定し、前記複数の予め設定された表現層の前記各々によって出力された前記第2の参照画像の表現の平均値および分散を第2の平均値および第2の分散として決定することと、
前記第1の参照画像と前記第2の参照画像との間の前記スタイルの差を、前記複数の予め設定された表現層の前記各々に対応する前記第1の平均値と前記第2の平均値との間の差および前記第1の分散と前記第2の分散との間の差に従って決定することと、
で決定される
請求項4に記載の画像処理方法。
【請求項7】
前記第1の損失関数の各々が、以下の式、
【数1】
を使用して決定され、
式中、
【数2】
が、第iの新しいスタイル表現および第kのソースドメイン画像に対応する第1の損失関数を表し、kが、正の整数であり、1≦k≦nsであり、iが、正の整数であり、n = ns + ntが、前記ソースドメイン画像および前記ターゲットドメイン画像の総数を表し、nsおよびntが、それぞれ、前記ソースドメイン画像の数および前記ターゲットドメイン画像の数を表し、njが、第jのターゲットドメインスタイル表現に対応するターゲット画像の数を表し、Ktが、前記ターゲットドメインスタイル表現の数を表し、Tnovが、最大化された距離の閾値を表すハイパーパラメータであり、jが、正の整数であり、1≦j≦Ktであり、
【数3】
が、前記第kのソースドメイン画像を表し、
【数4】
が、前記第iの新しいスタイル表現と、前記第kのソースドメイン画像のソースドメイン内容表現とを前記生成ネットワークに入力することによって生成された第1の転移画像を表し、
【数5】
が、前記第jのターゲットドメインスタイル表現と、前記第kのソースドメイン画像の前記ソースドメイン内容表現とを前記生成ネットワークに入力することによって生成された第2の転移画像を表し、d(・)が、2つの画像の間のスタイルの差の決定関数を表す請求項4に記載の画像処理方法。
【請求項8】
前記第2の損失関数の各々が、以下の式、
【数6】
を使用して決定され、
式中、
【数7】
が、第iの新しいスタイル表現および第kのソースドメイン画像に対応する第2の損失関数を表し、1≦i≦Knであり、iが、正の整数であり、Knが、前記予め設定された数であり、Tdivが、最大化された距離の閾値を表すハイパーパラメータであり、
【数8】
が、第jの新しいスタイル表現と、前記第kのソースドメイン画像のソースドメイン内容表現とを前記生成ネットワークに入力することによって生成された第1の転移画像を表し、jが、正の整数であり、
【数9】
が、前記第iの新しいスタイル表現と、前記第kのソースドメイン画像の前記ソースドメイン内容表現とを前記生成ネットワークに入力することによって生成された第1の転移画像を表し、d(・)が、2つの画像の間のスタイルの差の決定関数を表す請求項4に記載の画像処理方法。
【請求項9】
前記第3の損失関数の各々が、以下の式、
【数10】
を使用して決定され、
式中、
【数11】
が、第iの新しいスタイル表現および第kのソースドメイン画像に対応する第3の損失関数を表し、φsm(・)が、意味表現抽出器の関数を表し、
【数12】
が、前記第kのソースドメイン画像を表し、
【数13】
が、前記第iの新しいスタイル表現と、前記第kのソースドメイン画像のソースドメイン内容表現とを前記生成ネットワークに入力することによって取得された第1の転移画像を表す請求項4に記載の画像処理方法。
【請求項10】
前記第1の損失関数、前記第2の損失関数、および前記第3の損失関数に従って前記新しいスタイル表現を調整することが、
前記第1の損失関数、前記第2の損失関数、および前記第3の損失関数を重み付けし、合計することによって目標損失関数を取得することと、
前記目標損失関数に従って勾配を決定することと、
前記勾配および予め設定された学習率に従って前記新しいスタイル表現を調整することであって、ランダムに生成される予め設定された数の前記新しいスタイル表現の各次元の値が、標準正規分布からランダムにサンプリングされる、調整することと、
を含む請求項4に記載の画像処理方法。
【請求項11】
前記複数の新しいスタイル表現を前記更新されたソースドメイン内容表現と組み合わせることによって第1の画像を生成し、前記更新されたターゲットドメインスタイル表現を前記更新されたソースドメイン内容表現と組み合わせることによって第2の画像を生成するステップが、
前記目的に対応する前記予め設定された収束条件が満たされる場合、前記第1の画像を取得するために前記生成ネットワークに前記複数の新しいスタイル表現および前記更新されたソースドメイン内容表現を入力し、前記第2の画像を取得するために前記生成ネットワークに前記更新されたターゲットドメインスタイル表現および前記更新されたソースドメイン内容表現を入力することを含む請求項5に記載の画像処理方法。
【請求項12】
前記第1の画像、前記第2の画像、および前記ソースドメイン画像を使用して物体検出モデルを訓練するステップが、
前記第1の画像の物体検出結果を取得するために前記物体検出モデルに前記第1の画像を入力し、前記第2の画像の物体検出結果を取得するために前記物体検出モデルに前記第2の画像を入力し、前記ソースドメイン画像の物体検出結果を取得するために前記物体検出モデルに前記ソースドメイン画像を入力することと、
前記第1の画像の前記物体検出結果との、前記第2の画像の前記物体検出結果との、および前記ソースドメイン画像の前記物体検出結果との前記ソースドメイン画像のラベリング情報の差に従って物体検出損失関数を決定することと、
前記物体検出損失関数に従って前記物体検出モデルのパラメータを調整することと、
を含む請求項1に記載の画像処理方法。
【請求項13】
前記第1の画像、前記第2の画像、および前記ソースドメイン画像を使用して物体検出モデルを訓練するステップが、
前記第1の画像の基本表現を取得するために前記物体検出モデルの基本表現抽出ネットワークに前記第1の画像を入力し、前記第2の画像の基本表現を取得するために前記物体検出モデルの前記基本表現抽出ネットワークに前記第2の画像を入力し、前記ソースドメイン画像の基本表現を取得するために前記物体検出モデルの前記基本表現抽出ネットワークに前記ソースドメイン画像を入力し、前記ターゲットドメイン画像の基本表現を取得するために前記物体検出モデルの前記基本表現抽出ネットワークに前記ターゲットドメイン画像を入力することと、
前記第1の画像の識別結果を取得するために、前記第1の画像の前記基本表現を勾配反転層に入力し、それから、識別ネットワークに入力し、前記第2の画像の識別結果を取得するために、前記第2の画像の前記基本表現を前記勾配反転層に入力し、それから、前記識別ネットワークに入力し、前記ソースドメイン画像の識別結果を取得するために、前記ソースドメイン画像の前記基本表現を前記勾配反転層に入力し、それから、前記識別ネットワークに入力し、前記ターゲットドメイン画像の識別結果を取得するために、前記ターゲットドメイン画像の前記基本表現を前記勾配反転層に入力し、それから、前記識別ネットワークに入力することと、
前記第1の画像の前記識別結果、前記第2の画像の前記識別結果、前記ソースドメイン画像の前記識別結果、および前記ターゲットドメイン画像の前記識別結果に従って識別損失関数を決定することと、
をさらに含み、
前記物体検出損失関数に従って前記物体検出モデルのパラメータを調整することが、
前記物体検出損失関数および前記識別損失関数に従って前記物体検出モデルの前記パラメータを調整することを含む請求項12に記載の画像処理方法。
【請求項14】
前記物体検出結果が、測位結果および分類結果を含み、前記測位結果が、検出された物体の位置であり、前記分類結果が、前記検出された物体のカテゴリであり、前記ソースドメイン画像の前記ラベリング情報が、前記ソースドメイン画像内の物体の位置および前記ソースドメイン画像内の前記物体のカテゴリを含み、
前記第1の画像の前記物体検出結果との、前記第2の画像の前記物体検出結果との、および前記ソースドメイン画像の前記物体検出結果との前記ソースドメイン画像のラベリング情報の前記差に従って物体検出損失関数を決定することが、
前記第1の画像の前記測位結果との、前記第2の画像の前記測位結果との、および前記ソースドメイン画像の前記測位結果との前記ソースドメイン画像内の前記物体の前記位置の差に従って測位損失関数を決定することと、
前記第1の画像の前記分類結果との、前記第2の画像の前記分類結果との、および前記ソースドメイン画像の前記分類結果との前記ソースドメイン画像内の前記物体の前記カテゴリの差に従って分類損失関数を決定することと、
前記物体検出損失関数を取得するために前記測位損失関数および前記分類損失関数を重み付けし、合計することと、
を含む請求項12に記載の画像処理方法。
【請求項15】
前記測位損失関数の各々が、以下の式、
【数14】
を使用して決定され、
式中、
【数15】
が、第kのソースドメイン画像に対応する測位損失を表し、
【数16】
が、前記第kのソースドメイン画像を表し、
【数17】
が、前記第kのソースドメイン画像内の物体の位置を表し、
【数18】
が、前記第kのソースドメイン画像の測位結果および前記第kのソースドメイン画像内の前記物体の前記位置によって決定される測位損失を表し、diが、前記複数の新しいスタイル表現および前記更新されたターゲットドメインスタイル表現のセットの第iのスタイル表現を表し、
【数19】
が、前記第iのスタイル表現を前記第kのソースドメイン画像の更新されたソースドメイン内容表現と組み合わせることによって生成された画像を表し、前記画像が、前記第1の画像のうちの1つまたは前記第2の画像のうちの1つであり、
【数20】
が、前記画像
【数21】
の測位結果および前記第kのソースドメイン画像内の前記物体の前記位置に対応する測位損失を表し、1≦i≦Ndであり、iが、正の整数であり、Ndが、前記複数の新しいスタイル表現および前記更新されたターゲットドメインスタイル表現の前記セットのスタイル表現の総数を表す請求項14に記載の画像処理方法。
【請求項16】
前記分類損失関数の各々が、以下の式、
【数22】
を使用して決定され、
式中、
【数23】
が、第kのソースドメイン画像に対応する分類損失を表し、
【数24】
が、前記第kのソースドメイン画像を表し、
【数25】
が、前記第kのソースドメイン画像内の物体のカテゴリを表し、
【数26】
が、前記第kのソースドメイン画像の分類結果および前記第kのソースドメイン画像内の前記物体の前記カテゴリに対応する前記分類損失であり、diが、前記複数の新しいスタイル表現および前記更新されたターゲットドメインスタイル表現のセットの第iのスタイル表現を表し、
【数27】
が、前記第iのスタイル表現を前記第kのソースドメイン画像の更新されたソースドメイン内容表現と組み合わせることによって生成された画像を表し、前記画像が、前記第1の画像のうちの1つまたは前記第2の画像のうちの1つであり、
【数28】
が、前記画像
【数29】
の分類結果および前記第kのソースドメイン画像内の前記物体の前記カテゴリに対応する分類損失を表し、1≦i≦Ndであり、iが、正の整数であり、Ndが、前記複数の新しいスタイル表現および前記更新されたターゲットドメインスタイル表現の前記セットのスタイル表現の総数を表す請求項14に記載の画像処理方法。
【請求項17】
前記識別損失関数が、以下の式、
【数30】
を使用して決定され、
式中、
【数31】
が、第iのソースドメイン画像を表し、nsが、前記ソースドメイン画像の数を表し、
【数32】
が、前記ソースドメイン画像の前記識別結果に従って決定されるソースドメイン識別損失関数を表し、
【数33】
が、第jのターゲットドメイン画像を表し、
【数34】
が、前記第jのターゲットドメイン画像が属するスタイルを表し、ntが、前記ターゲットドメイン画像の数を表し、1≦j≦ntであり、jが、正の整数であり、
【数35】
が、前記ターゲットドメイン画像の前記識別結果に従って決定されるターゲットドメイン識別損失関数を表し、dkが、前記複数の新しいスタイル表現および前記更新されたターゲットドメインスタイル表現のセットの第kのスタイル表現を表し、
【数36】
が、前記第kのスタイル表現を前記第iのソースドメイン画像の更新されたソースドメイン内容表現と組み合わせることによって生成された画像を表し、1≦k≦Ndであり、kが、正の整数であり、Ndが、前記複数の新しいスタイル表現および前記更新されたターゲットドメインスタイル表現の前記セットのスタイル表現の総数を表し、
【数37】
が、前記第1の画像の前記識別結果および前記第2の画像の前記識別結果に従って決定される前記識別損失関数を表す請求項13に記載の画像処理方法。
【請求項18】
【数38】
であり、
式中、1≦h≦Hであり、hが、前記画像のピクセルの高さを表す正の整数であり、1≦w≦Wであり、wが、前記画像のピクセルの幅を表す正の整数であり、HおよびWが、それぞれ、前記画像のピクセルの最大の高さおよび最大の幅を表し、F(・)が、前記基本表現抽出ネットワークおよび前記勾配反転層の関数を表す請求項17に記載の画像処理方法。
【請求項19】
検出される画像の物体検出結果を取得するために、前記訓練された物体検出モデルに検出される前記画像を入力するステップをさらに含む請求項1に記載の画像処理方法。
【請求項20】
ソースドメイン画像のソースドメイン内容表現およびターゲットドメイン画像のターゲットドメインスタイル表現を取得するように構成された取得モジュールと、
互いに異なる複数の新しいスタイル表現が、前記ソースドメイン画像のソースドメインスタイル表現および前記ターゲットドメインスタイル表現と異なっており、前記複数の新しいスタイル表現と前記ソースドメイン内容表現とを組み合わせることによって生成された画像が、前記ソースドメイン画像と意味的に一貫していることを目的として、前記複数の新しいスタイル表現を生成し、前記ソースドメイン内容表現および前記ターゲットドメインスタイル表現を更新するように構成された表現生成モジュールと、
前記複数の新しいスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって第1の画像を生成し、更新されたターゲットドメインスタイル表現を前記更新されたソースドメイン内容表現と組み合わせることによって第2の画像を生成するように構成された画像生成モジュールと、
訓練された物体検出モデルを取得するために前記第1の画像、前記第2の画像、および前記ソースドメイン画像を使用して物体検出モデルを訓練するように構成された訓練モジュールと、
を含む画像処理装置。
【請求項21】
プロセッサと、
前記プロセッサによって実行されるときに前記プロセッサに請求項1から19のいずれか一項に記載の画像処理方法を実行させる命令を記憶するための、前記プロセッサに結合されたメモリと、
を含む画像処理装置。
【請求項22】
コンピュータプログラムを記憶させた非一時的コンピュータ可読ストレージ媒体であって、前記プログラムが、プロセッサによって実行されるときに前記プロセッサに請求項1から19のいずれか一項に記載の方法のステップを実施させる、非一時的コンピュータ可読ストレージ媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本開示は、2021年4月16日に出願した発明の中国出願第202110410920.0号に基づき、その優先権を主張するものであり、この中国出願の開示は、参照によりその全体が本開示に組み込まれる。
【0002】
本開示は、コンピュータテクノロジーの分野に関し、特に、画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体に関する。
【背景技術】
【0003】
実際のところ、画像内の人間にとって関心のある物体の自動化された正確な検出が広く応用されている。たとえば、物体検出によって、自動運転システムは、歩行者および障害物を効果的に回避することができ、リモートセンシングシステムは、関心のあるエリアを特定することができ、工業生産ラインは、欠陥部品を選別し、特定することができる。
【0004】
既存の物体検出アルゴリズムは、通常、注意深く収集された高品質で曖昧さのないデータセットに基づいて訓練される必要がある。しかし、実際には、天候の変化、照明、物体の動き、データ収集、およびその他の原因により、画像は、コントラストの低下、ぼやけ、雑音、およびその他の品質悪化に見舞われることが多い。したがって、物体検出のために構成される実際の画像は、訓練画像とは異なるスタイル(style)を有する劣化した画像である。
【0005】
発明者に知られているそれらのドメイン適応に基づくロバストな物体検出アルゴリズムは、敵対的訓練およびその他の方法を通じて表現分布のアラインメント(representation distribution alignment)を達成し、ソースドメインのラベル付けされたデータで訓練されたモデルがターゲットドメインに一般化されることを可能にする。この種の方法は、ターゲットドメインに1種類の劣化(スタイル)しかないことと仮定することが多い。
【発明の概要】
【課題を解決するための手段】
【0006】
本開示の一部の実施形態によれば、ソースドメイン画像のソースドメイン内容表現およびターゲットドメイン画像のターゲットドメインスタイル表現を取得するステップと、互いに異なる複数の新しいスタイル表現が、ソースドメイン画像のソースドメインスタイル表現およびターゲットドメインスタイル表現と異なっており、複数の新しいスタイル表現とソースドメイン内容表現とを組み合わせることによって生成された画像が、ソースドメイン画像と意味的に一貫していることを目的として、複数の新しいスタイル表現を生成し、ソースドメイン内容表現およびターゲットドメインスタイル表現を更新するステップと、複数の新しいスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって第1の画像を生成し、更新されたターゲットドメインスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって第2の画像を生成するステップと、訓練された物体検出モデルを取得するために第1の画像、第2の画像、およびソースドメイン画像を使用して物体検出モデルを訓練するステップとを含む画像処理方法が、提供される。
【0007】
一部の実施形態において、ソースドメイン画像のソースドメイン内容表現およびターゲットドメイン画像のターゲットドメインスタイル表現を取得するステップは、内容エンコーダを使用してソースドメイン画像のソースドメイン内容表現を抽出することと、スタイルエンコーダを使用してターゲットドメイン画像のターゲットドメインスタイル表現を抽出することとを含む。
【0008】
一部の実施形態において、スタイルエンコーダは、スタイル表現抽出ネットワークおよびクラスタリングモジュールを含み、スタイルエンコーダを使用してターゲットドメイン画像のターゲットドメインスタイル表現を抽出することは、ターゲットドメイン画像の基本スタイル表現を取得するためにスタイル表現抽出ネットワークにターゲットドメイン画像を入力することと、ターゲットドメインスタイル表現としてクラスタリングの中心の表現ベクトルを取得するためのクラスタリングのためにクラスタリングモジュールにターゲットドメイン画像の基本スタイル表現を入力することとを含む。
【0009】
一部の実施形態において、複数の新しいスタイル表現を生成するステップは、予め設定された数の新しいスタイル表現をランダムに生成し、第1の転移画像(transfer image)を取得するために生成ネットワークに新しいスタイル表現およびソースドメイン内容表現を入力することと、第2の転移画像を取得するために生成ネットワークにターゲットドメインスタイル表現およびソースドメイン内容表現を入力することと、第1の転移画像とソースドメイン画像との間のスタイルの差、および第1の転移画像と第2の転移画像との間のスタイルの差に従って第1の損失関数を決定することであって、第1の損失関数が、新しいスタイル表現とソースドメインスタイル表現との間の差、および新しいスタイル表現とターゲットドメインスタイル表現との間の差を表すために使用される、決定することと、第1の転移画像の間のスタイルの差に従って第2の損失関数を決定することであって、第2の損失関数が、新しいスタイル表現の間の差を表すために使用される、決定することと、第1の転移画像の意味(semantic)表現とソースドメイン画像の意味表現との間の差に従って第3の損失関数を決定することであって、第3の損失関数が、ソースドメイン画像と、新しいスタイル表現とソースドメイン内容表現とを組み合わせることによって生成された画像との間の意味的な差を表すために使用される、決定することと、複数の新しいスタイル表現を取得するために、目的に対応する予め設定された収束条件が満たされるまで、第1の損失関数、第2の損失関数、および第3の損失関数に従って新しいスタイル表現を調整することとを含む。
【0010】
一部の実施形態において、ソースドメイン内容表現およびターゲットドメインスタイル表現を更新するステップは、目的に対応する予め設定された収束条件が満たされるまで、第1の損失関数、第2の損失関数、および第3の損失関数に従って内容エンコーダ、スタイルエンコーダ、および生成ネットワークのパラメータを調整することと、目的に対応する予め設定された収束条件が満たされる場合、内容エンコーダによって出力されたソースドメイン内容表現を、更新されたソースドメイン内容表現とし、スタイルエンコーダによって出力されたターゲットドメインスタイル表現を、更新されたターゲットドメインスタイル表現とすることとを含む。
【0011】
一部の実施形態においては、第1の転移画像のいずれかと、第1の転移画像のいずれかに対応するソースドメイン画像とを、それぞれ、第1の参照画像および第2の参照画像とするか、または第1の転移画像のいずれかと、第1の転移画像のいずれかに対応する第2の転移画像とを、それぞれ、第1の参照画像および第2の参照画像とするか、または第1の転移画像のうちの任意の2つを、それぞれ、第1の参照画像および第2の参照画像として、第1の参照画像と第2の参照画像との間のスタイルの差が、以下の方法、すなわち、第1の参照画像および第2の参照画像を、事前に訓練された表現抽出ネットワークの複数の予め設定された表現層に入力すること、複数の予め設定された表現層の各々に関して、複数の予め設定された表現層の各々によって出力された第1の参照画像の表現の平均値および分散を第1の平均値および第1の分散として決定し、複数の予め設定された表現層の各々によって出力された第2の参照画像の表現の平均値および分散を第2の平均値および第2の分散として決定すること、ならびに第1の参照画像と第2の参照画像との間のスタイルの差を、複数の予め設定された表現層の各々に対応する第1の平均値と第2の平均値との間の差および第1の分散と第2の分散との間の差に従って決定することで決定される。
【0012】
一部の実施形態において、第1の損失関数の各々は、以下の式、すなわち、
【0013】
【数1】
【0014】
を使用して決定され、
【0015】
式中、
【0016】
【数2】
【0017】
は、第iの新しいスタイル表現および第kのソースドメイン画像に対応する第1の損失関数を表し、kは、正の整数であり、1≦k≦nsであり、iは、正の整数であり、n = ns + ntは、ソースドメイン画像およびターゲットドメイン画像の総数を表し、nsおよびntは、それぞれ、ソースドメイン画像の数およびターゲットドメイン画像の数を表し、njは、第jのターゲットドメインスタイル表現に対応するターゲット画像の数を表し、Ktは、ターゲットドメインスタイル表現の数を表し、Tnovは、最大化された距離の閾値(maximized distance threshold)を表すハイパーパラメータであり、jは、正の整数であり、1≦j≦Ktであり、
【0018】
【数3】
【0019】
は、第kのソースドメイン画像を表し、
【0020】
【数4】
【0021】
は、第iの新しいスタイル表現と、第kのソースドメイン画像のソースドメイン内容表現とを生成ネットワークに入力することによって生成された第1の転移画像を表し、
【0022】
【数5】
【0023】
は、第jのターゲットドメインスタイル表現と、第kのソースドメイン画像のソースドメイン内容表現とを生成ネットワークに入力することによって生成された第2の転移画像を表し、d(・)は、2つの画像の間のスタイルの差の決定関数を表す。
【0024】
一部の実施形態において、第2の損失関数の各々は、以下の式、すなわち、
【0025】
【数6】
【0026】
を使用して決定され、
【0027】
式中、
【0028】
【数7】
【0029】
は、第iの新しいスタイル表現および第kのソースドメイン画像に対応する第2の損失関数を表し、1≦i≦Knであり、iは、正の整数であり、Knは、予め設定された数であり、Tdivは、最大化された距離の閾値を表すハイパーパラメータであり、
【0030】
【数8】
【0031】
は、第jの新しいスタイル表現と、第kのソースドメイン画像のソースドメイン内容表現とを生成ネットワークに入力することによって生成された第1の転移画像を表し、jは、正の整数であり、
【0032】
【数9】
【0033】
は、第iの新しいスタイル表現と、第kのソースドメイン画像のソースドメイン内容表現とを生成ネットワークに入力することによって生成された第1の転移画像を表し、d(・)は、2つの画像の間のスタイルの差の決定関数を表す。
【0034】
一部の実施形態において、第3の損失関数の各々は、以下の式、すなわち、
【0035】
【数10】
【0036】
によって決定され、
【0037】
式中、
【0038】
【数11】
【0039】
は、第iの新しいスタイル表現および第kのソースドメイン画像に対応する第3の損失関数を表し、φsm(・)は、意味表現抽出器の関数を表し、
【0040】
【数12】
【0041】
は、第kのソースドメイン画像を表し、
【0042】
【数13】
【0043】
は、第iの新しいスタイル表現と、第kのソースドメイン画像のソースドメイン内容表現とを生成ネットワークに入力することによって取得された第1の転移画像を表す。
【0044】
一部の実施形態において、第1の損失関数、第2の損失関数、および第3の損失関数に従って新しいスタイル表現を調整することは、第1の損失関数、第2の損失関数、および第3の損失関数を重み付けし、合計することによって目標損失関数を取得することと、目標損失関数に従って勾配を決定することと、勾配および予め設定された学習率に従って新しいスタイル表現を調整することであって、ランダムに生成される予め設定された数の新しいスタイル表現の各次元の値が、標準正規分布からランダムにサンプリングされる、調整することとを含む。
【0045】
一部の実施形態において、複数の新しいスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって第1の画像を生成し、更新されたターゲットドメインスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって第2の画像を生成するステップは、目的に対応する予め設定された収束条件が満たされる場合、第1の画像を取得するために生成ネットワークに複数の新しいスタイル表現および更新されたソースドメイン内容表現を入力し、第2の画像を取得するために生成ネットワークに更新されたターゲットドメインスタイル表現および更新されたソースドメイン内容表現を入力することを含む。
【0046】
一部の実施形態において、第1の画像、第2の画像、およびソースドメイン画像を使用して物体検出モデルを訓練するステップは、第1の画像の物体検出結果を取得するために物体検出モデルに第1の画像を入力し、第2の画像の物体検出結果を取得するために物体検出モデルに第2の画像を入力し、ソースドメイン画像の物体検出結果を取得するために物体検出モデルにソースドメイン画像を入力することと、第1の画像の物体検出結果との、第2の画像の物体検出結果との、およびソースドメイン画像の物体検出結果とのソースドメイン画像のラベリング情報の差に従って物体検出損失関数を決定することと、物体検出損失関数に従って物体検出モデルのパラメータを調整することとを含む。
【0047】
一部の実施形態において、第1の画像、第2の画像、およびソースドメイン画像を使用して物体検出モデルを訓練するステップは、第1の画像の基本表現を取得するために物体検出モデルの基本表現抽出ネットワークに第1の画像を入力し、第2の画像の基本表現を取得するために物体検出モデルの基本表現抽出ネットワークに第2の画像を入力し、ソースドメイン画像の基本表現を取得するために物体検出モデルの基本表現抽出ネットワークにソースドメイン画像を入力し、ターゲットドメイン画像の基本表現を取得するために物体検出モデルの基本表現抽出ネットワークにターゲットドメイン画像を入力することと、第1の画像の識別結果を取得するために、第1の画像の基本表現を勾配反転層(gradient inversion layer)に入力し、それから、識別ネットワークに入力し、第2の画像の識別結果を取得するために、第2の画像の基本表現を勾配反転層に入力し、それから、識別ネットワークに入力し、ソースドメイン画像の識別結果を取得するために、ソースドメイン画像の基本表現を勾配反転層に入力し、それから、識別ネットワークに入力し、ターゲットドメイン画像の識別結果を取得するために、ターゲットドメイン画像の基本表現を勾配反転層に入力し、それから、識別ネットワークに入力することと、第1の画像の識別結果、第2の画像の識別結果、ソースドメイン画像の識別結果、およびターゲットドメイン画像の識別結果に従って識別損失関数を決定することとをさらに含み、物体検出損失関数に従って物体検出モデルのパラメータを調整することは、物体検出損失関数および識別損失関数に従って物体検出モデルのパラメータを調整することを含む。
【0048】
一部の実施形態において、物体検出結果は、測位結果および分類結果を含み、測位結果は、検出された物体の位置であり、分類結果は、検出された物体のカテゴリであり、ソースドメイン画像のラベリング情報は、ソースドメイン画像内の物体の位置およびソースドメイン画像内の物体のカテゴリを含み、第1の画像の物体検出結果との、第2の画像の物体検出結果との、およびソースドメイン画像の物体検出結果とのソースドメイン画像のラベリング情報の差に従って物体検出損失関数を決定することは、第1の画像の測位結果との、第2の画像の測位結果との、およびソースドメイン画像の測位結果とのソースドメイン画像内の物体の位置の差に従って測位損失関数を決定することと、第1の画像の分類結果との、第2の画像の分類結果との、およびソースドメイン画像の分類結果とのソースドメイン画像内の物体のカテゴリの差に従って分類損失関数を決定することと、物体検出損失関数を取得するために測位損失関数および分類損失関数を重み付けし、合計することとを含む。
【0049】
一部の実施形態において、測位損失関数の各々は、以下の式、すなわち、
【0050】
【数14】
【0051】
を使用して決定され、
【0052】
式中、
【0053】
【数15】
【0054】
は、第kのソースドメイン画像に対応する測位損失を表し、
【0055】
【数16】
【0056】
は、第kのソースドメイン画像を表し、
【0057】
【数17】
【0058】
は、第kのソースドメイン画像内の物体の位置を表し、
【0059】
【数18】
【0060】
は、第kのソースドメイン画像の測位結果および第kのソースドメイン画像内の物体の位置によって決定される測位損失を表し、diは、複数の新しいスタイル表現および更新されたターゲットドメインスタイル表現のセットの第iのスタイル表現を表し、
【0061】
【数19】
【0062】
は、第iのスタイル表現を第kのソースドメイン画像の更新されたソースドメイン内容表現と組み合わせることによって生成された画像を表し、画像は、第1の画像のうちの1つまたは第2の画像のうちの1つであり、
【0063】
【数20】
【0064】
は、画像
【0065】
【数21】
【0066】
の測位結果および第kのソースドメイン画像内の物体の位置に対応する測位損失を表し、1≦i≦Ndであり、iは、正の整数であり、Ndは、複数の新しいスタイル表現および更新されたターゲットドメインスタイル表現のセットのスタイル表現の総数を表す。
【0067】
一部の実施形態において、分類損失関数の各々は、以下の式、すなわち、
【0068】
【数22】
【0069】
を使用して決定され、
【0070】
式中、
【0071】
【数23】
【0072】
は、第kのソースドメイン画像に対応する分類損失を表し、
【0073】
【数24】
【0074】
は、第kのソースドメイン画像を表し、
【0075】
【数25】
【0076】
は、第kのソースドメイン画像内の物体のカテゴリを表し、
【0077】
【数26】
【0078】
は、第kのソースドメイン画像の分類結果および第kのソースドメイン画像内の物体のカテゴリに対応する分類損失であり、diは、複数の新しいスタイル表現および更新されたターゲットドメインスタイル表現のセットの第iのスタイル表現を表し、
【0079】
【数27】
【0080】
は、第iのスタイル表現を第kのソースドメイン画像の更新されたソースドメイン内容表現と組み合わせることによって生成された画像を表し、画像は、第1の画像のうちの1つまたは第2の画像のうちの1つであり、
【0081】
【数28】
【0082】
は、画像
【0083】
【数29】
【0084】
の分類結果および第kのソースドメイン画像内の物体のカテゴリに対応する分類損失を表し、1≦i≦Ndであり、iは、正の整数であり、Ndは、複数の新しいスタイル表現および更新されたターゲットドメインスタイル表現のセットのスタイル表現の総数を表す。
【0085】
一部の実施形態において、識別損失関数は、以下の式、すなわち、
【0086】
【数30】
【0087】
を使用して決定され、
【0088】
式中、
【0089】
【数31】
【0090】
は、第iのソースドメイン画像を表し、nsは、ソースドメイン画像の数を表し、
【0091】
【数32】
【0092】
は、ソースドメイン画像の識別結果に従って決定されるソースドメイン識別損失関数を表し、
【0093】
【数33】
【0094】
は、第jのターゲットドメイン画像を表し、
【0095】
【数34】
【0096】
は、第jのターゲットドメイン画像が属するスタイルを表し、ntは、ターゲットドメイン画像の数を表し、1≦j≦ntであり、jは、正の整数であり、
【0097】
【数35】
【0098】
は、ターゲットドメイン画像の識別結果に従って決定されるターゲットドメイン識別損失関数を表し、dkは、複数の新しいスタイル表現および更新されたターゲットドメインスタイル表現のセットの第kのスタイル表現を表し、
【0099】
【数36】
【0100】
は、第kのスタイル表現を第iのソースドメイン画像の更新されたソースドメイン内容表現と組み合わせることによって生成された画像を表し、1≦k≦Ndであり、kは、正の整数であり、Ndは、複数の新しいスタイル表現および更新されたターゲットドメインスタイル表現のセットのスタイル表現の総数を表し、
【0101】
【数37】
【0102】
は、第1の画像の識別結果および第2の画像の識別結果に従って決定される識別損失関数を表す。
【0103】
一部の実施形態においては、
【0104】
【数38】
【0105】
であり、
【0106】
式中、1≦h≦Hであり、hは、画像のピクセルの高さを表す正の整数であり、1≦w≦Wであり、wは、画像のピクセルの幅を表す正の整数であり、HおよびWは、それぞれ、画像のピクセルの最大の高さおよび最大の幅を表し、F(・)は、基本表現抽出ネットワークおよび勾配反転層の関数を表す。
【0107】
一部の実施形態において、方法は、検出される画像の物体検出結果を取得するために、訓練された物体検出モデルに検出される画像を入力するステップをさらに含む。
【0108】
本開示のその他の実施形態によれば、ソースドメイン画像のソースドメイン内容表現およびターゲットドメイン画像のターゲットドメインスタイル表現を取得するように構成された取得モジュールと、互いに異なる複数の新しいスタイル表現が、ソースドメイン画像のソースドメインスタイル表現およびターゲットドメインスタイル表現と異なっており、複数の新しいスタイル表現とソースドメイン内容表現とを組み合わせることによって生成された画像が、ソースドメイン画像と意味的に一貫していることを目的として、複数の新しいスタイル表現を生成し、ソースドメイン内容表現およびターゲットドメインスタイル表現を更新するように構成された表現生成モジュールと、複数の新しいスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって第1の画像を生成し、更新されたターゲットドメインスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって第2の画像を生成するように構成された画像生成モジュールと、訓練された物体検出モデルを取得するために第1の画像、第2の画像、およびソースドメイン画像を使用して物体検出モデルを訓練するように構成された訓練モジュールとを含む画像処理装置が、提供される。
【0109】
本開示のその他の実施形態によれば、プロセッサ、プロセッサによって実行されるときにプロセッサに上述の実施形態のいずれか1つの画像処理方法を実行させる命令を記憶するための、プロセッサに結合されたメモリを含む画像処理装置が提供される。
【0110】
本開示のさらにその他の実施形態によれば、コンピュータプログラムが記憶される非一時的コンピュータ可読ストレージ媒体であって、プログラムが、プロセッサによって実行されるときにプロセッサに上述の実施形態のいずれか1つの画像処理方法を実施させる、非一時的コンピュータ可読ストレージ媒体が、提供される。
【0111】
本発明のその他の表現および利点は、添付の図面を参照して本開示の例示的な実施形態の下の詳細な説明から明らかになるであろう。
【0112】
本開示をさらに理解させるために含まれ、本明細書に組み込まれ、本明細書の一部を構成する添付の図面は、本発明の実施形態を示し、本出願の例示的な実施形態と一緒に本開示を説明する働きをするが、本開示の限定ではない。
【図面の簡単な説明】
【0113】
図1】本開示の一部の実施形態による画像処理方法の流れ図である。
図2】本開示の一部の実施形態によるネットワークアーキテクチャの概略図である。
図3】本開示の一部の実施形態による画像処理デバイスの構造の概略図である。
図4】本開示のその他の実施形態による画像処理デバイスの構造の概略図である。
図5】本開示のさらにその他の実施形態による画像処理デバイスの構造の概略図である。
【発明を実施するための形態】
【0114】
以下で、明瞭で完全な説明が、実施形態の図を参照して本開示の実施形態の技術的な解決策に関して与えられる。明らかに、本開示のすべての実施形態ではなく本開示の一部の実施形態のみが、本明細書において与えられる。少なくとも1つの例示的な実施形態の以下の説明は、実際のところ、例示的であるに過ぎず、本発明、その応用または使用に対する限定としてまったく意図されていない。創造的な努力なしに本開示の実施形態に基づいて当業者によって得られるすべてのその他の実施形態は、本開示の保護範囲内に入る。
【0115】
発明者は、実は、訓練された物体検出モデルが、異なる種類の劣化(スタイル)の画像内の物体を正確に検出する必要があることを知った。しかし、既存の方法によって訓練された物体検出モデルは、異なるスタイルの画像を認識することができない。さらに、実世界のシナリオでの訓練のための異なるスタイルの画像の獲得およびラベリングは、多大な量のマンパワーおよびリソースを必要とする。
【0116】
本開示によって解決される技術的な問題は、物体検出モデルの訓練の効率および効果をどのようにして向上させるべきかである。
【0117】
本開示は、図1から図3を参照して以下で説明される画像処理方法を提供する。
【0118】
図1は、本開示の一部の実施形態による画像処理方法の概略図である。図1に示されるように、これらの実施形態の方法は、ステップS102からS108を含む。
【0119】
ステップS102において、ソースドメイン画像のソースドメイン内容表現およびターゲットドメイン画像のターゲットドメインスタイル表現が取得される。
【0120】
たとえば、
【0121】
【数39】
【0122】
が、ラベルを持つソースドメイン画像のセットを表し、式中、
【0123】
【数40】
【0124】
は、第iのソースドメイン画像を表し、
【0125】
【数41】
【0126】
は、第iのソースドメイン画像に対応するラベリング情報(ラベル)を表す。ラベリング情報は、ソースドメイン画像内の物体の位置、および/またはソースドメイン画像内の物体のカテゴリなどの意味ラベルを含む。ラベリング情報は、ソースドメイン画像のスタイルを表すドメインラベルも含んでよい。nsは、ソースドメイン画像の数である。ラベルのないターゲットドメイン画像のセットは、
【0127】
【数42】
【0128】
として表されることが可能であり、式中、
【0129】
【数43】
【0130】
は、第iのターゲットドメイン画像を表し、ntは、ターゲットドメイン画像の数である。
【0131】
画像の意味情報、たとえば、異なる画素が属する意味カテゴリ(車両、人物、背景など)を反映するために、内容表現が使用される。画像の劣化の種類を反映するために、スタイル表現が使用される。たとえば、天候の変化により、収集される画像は、雨、雪、または霧の影響下で不鮮明になる場合があり、照明の変化により、収集される画像は、露出過度および薄暗い照明などの問題を有する場合があり、収集機器およびプロセスの影響により、画像は、ぼけおよび雑音などの問題を有する場合がある。ソースドメイン画像およびターゲットドメイン画像は、同じまたは似た意味情報を有するが、異なる種類の劣化、すなわち、スタイル表現を有する。
【0132】
一部の実施形態において、ソースドメイン画像のソースドメイン内容表現は、内容エンコーダを使用して抽出され、ターゲットドメイン画像のターゲットドメインスタイル表現は、スタイルエンコーダを使用して抽出される。異なるエンコーダが、スタイル表現および内容表現を符号化するために使用されることが可能であり、それから、スタイル表現および内容表現は、画像のためにデカップリングされる(decoupled)ことが可能である。内容エンコーダおよびスタイルエンコーダは、VGGNetまたはResNetなどの畳み込みニューラルネットワーク(CNN)であってよい。
【0133】
一部の実施形態においては、図2に示されるように、スタイルエンコーダは、スタイル表現抽出ネットワークおよびクラスタリングモジュールを含む。ターゲットドメイン画像が、ターゲットドメイン画像の基本スタイル表現を取得するためにスタイル表現抽出ネットワークに入力されることが可能であり、ターゲットドメイン画像の基本スタイル表現が、ターゲットドメインスタイル表現としてクラスタリングの中心の表現ベクトルを取得するためのクラスタリングのためにクラスタリングモジュールに入力されることが可能である。
【0134】
ソースドメイン画像は、すべて1つのスタイルに属することが可能であり、ターゲットドメイン画像は、1つまたは複数のスタイルに属することが可能である。ターゲットドメイン画像のラベリング情報が欠如しているため、クラスタリングアルゴリズムが、ターゲットドメイン画像の1つまたは複数のクラスタリングの中心の1つまたは複数の表現を取得するために使用されることが可能であり、これらの表現が、異なるスタイルを表すための1つまたは複数のターゲットドメインスタイル表現として使用されることが可能である。K平均法、平均値シフトクラスタリング(mean shift clustering)、または密度に基づくクラスタリングアルゴリズムなどの任意の既存のアルゴリズムが、クラスタリングアルゴリズムとして採用され得る。クラスタリングによって、ターゲットドメイン画像の各々が、擬似的なドメインラベルでラベリングされることが可能であり、すなわち、ターゲットドメイン画像の各々が、スタイルでラベリングされてよい。
【0135】
ステップS104においては、互いに異なる複数の新しいスタイル表現が、ソースドメイン画像のソースドメインスタイル表現およびターゲットドメインスタイル表現と異なっており、複数の新しいスタイル表現とソースドメイン内容表現とを組み合わせることによって生成された画像が、ソースドメイン画像と意味的に一貫していることを目的として、複数の新しいスタイル表現が生成され、ソースドメイン内容表現およびターゲットドメインスタイル表現が更新される。
【0136】
上記の目的を達成するために、訓練のために異なる損失関数が確立され得る。一部の実施形態においては、図2に示されるように、複数の新しいスタイル表現を生成することは、予め設定された数の新しいスタイル表現をランダムに生成し、第1の転移画像を取得するために生成ネットワークに新しいスタイル表現およびソースドメイン内容表現を入力することと、第2の転移画像を取得するために生成ネットワークにターゲットドメインスタイル表現およびソースドメイン内容表現を入力することと、第1の転移画像とソースドメイン画像との間のスタイルの差、および第1の転移画像と第2の転移画像との間のスタイルの差に従って第1の損失関数を決定することであって、第1の損失関数が、新しいスタイル表現とソースドメインスタイル表現との間の差、および新しいスタイル表現とターゲットドメインスタイル表現との間の差を表すために使用される、決定することと、第1の転移画像の間のスタイルの差に従って第2の損失関数を決定することであって、第2の損失関数が、新しいスタイル表現の間の差を表すために使用される、決定することと、第1の転移画像の意味表現とソースドメイン画像の意味表現との間の差に従って第3の損失関数を決定することであって、第3の損失関数が、ソースドメイン画像と、新しいスタイル表現とソースドメイン内容表現とを組み合わせることによって生成された画像との間の意味的な差を表すために使用される、決定することと、複数の新しいスタイル表現を取得するために、目的に対応する予め設定された収束条件が満たされるまで、第1の損失関数、第2の損失関数、および第3の損失関数に従って新しいスタイル表現を調整することとを含む。
【0137】
予め設定された数は、ターゲットドメインスタイル表現の数(すなわち、ターゲットドメイン画像が属するスタイルの数)と同じであることが可能である。たとえば、ランダムに生成される予め設定された数の新しいスタイル表現の各次元の値は、標準正規分布からランダムにサンプリングされる。
【0138】
生成ネットワークは、スタイル表現と内容表現とを融合するために使用され、CNNなどの既存のモデルを含み得るがこれに限定されない。新しいスタイル表現およびソースドメイン内容表現が、ソースドメインから新しいドメインに転移された画像、すなわち、第1の転移画像を取得するために生成ネットワークに入力され得る。ターゲットドメインスタイル表現およびソースドメイン内容表現が、ソースドメインからターゲットドメインに転移された画像、すなわち、第2の転移画像を取得するために生成ネットワークに入力され得る。
【0139】
第1の損失関数および第2の損失関数は、両方とも、2つの画像の間のスタイルの差に基づいて決定される。一部の実施形態において、第1の転移画像のいずれかと、第1の転移画像のいずれかに対応するソースドメイン画像のうちのソースドメイン画像とを、それぞれ、第1の参照画像および第2の参照画像とするか、または第1の転移画像のいずれかと、第1の転移画像のいずれかに対応する第2の転移画像のうちの第2の転移画像とを、それぞれ、第1の参照画像および第2の参照画像とするか、または第1の転移画像のうちの任意の2つを、それぞれ、第1の参照画像および第2の参照画像として、第1の参照画像と第2の参照画像との間のスタイルの差が、以下の方法で決定される。第1の転移画像に対応するソースドメイン画像は、第1の転移画像を生成するために使用されるソースドメイン内容表現が属するソースドメイン画像である。同様に、第1の転移画像に対応する第2の転移画像は、第1の転移画像と同じソースドメイン内容表現を使用して生成された第2の転移画像である。
【0140】
第1の参照画像および第2の参照画像は、(図2に示されるように)事前に訓練された表現抽出ネットワークの複数の予め設定された表現層に入力され、複数の予め設定された表現層の各々に関して、複数の予め設定された表現層の各々によって出力された第1の参照画像の表現の平均値および分散が、第1の平均値および第1の分散として決定され、複数の予め設定された表現層の各々によって出力された第2の参照画像の表現の平均値および分散が、第2の平均値および第2の分散として決定され、第1の参照画像と第2の参照画像との間のスタイルの差が、複数の予め設定された表現層の各々に対応する第1の平均値と第2の平均値との間の差および第1の分散と第2の分散との間の差に従って決定される。表現層の各々に対応する第1の平均と第2の平均との間の差が大きいほど、および第1の分散と第2の分散との間の差が大きいほど、第1の参照画像と第2の参照画像との間のスタイルの差は大きくなる。
【0141】
事前に訓練された表現抽出ネットワークは、事前に訓練されたVGG19であってよいが、これに限定されない。たとえば、第1の参照画像と第2の参照画像との間のスタイルの差は、以下の式を使用して決定される。
【0142】
【数44】
【0143】
式(1)において、x1、x2は、第1の参照画像および第2の参照画像を表し、1≦i≦Lであり、iは、正の整数であり、Lは、事前に訓練された表現抽出ネットワークの表現層の数を表し、φi(・)は、事前に訓練された表現抽出ネットワークの第iの層の関数を表し、μ(・)は、平均値を求める関数を表し、σ(・)は、分散を求める機能を表す。
【0144】
一部の実施形態において、第1の損失関数は、新しいスタイル表現とソースドメインスタイル表現との間の差、および新しいスタイル表現とターゲットドメインスタイル表現との間の差を表すために使用される。第1の損失関数を用いた訓練は、既存のスタイルを補足するために、新しいスタイル表現をソースドメインおよびターゲットドメインの既存のスタイル表現と異なるようにすることができる。たとえば、第1の損失関数は、以下の式によって決定される。
【0145】
【数45】
【0146】
式(2)において、
【0147】
【数46】
【0148】
は、第iの新しいスタイル表現および第kのソースドメイン画像に対応する第1の損失関数を表し、kは、正の整数であり、1≦k≦nsであり、iは、正の整数であり、n = ns + ntは、ソースドメイン画像およびターゲットドメイン画像の総数を表し、nsおよびntは、それぞれ、ソースドメイン画像の数およびターゲットドメイン画像の数を表し、njは、第jのターゲットドメインスタイル表現に対応するターゲット画像の数を表し、Ktは、ターゲットドメインスタイル表現の数を表し、Tnovは、最大化された距離の閾値を表すハイパーパラメータであり、jは、正の整数であり、
【0149】
【数47】
【0150】
は、第kのソースドメイン画像を表し、
【0151】
【数48】
【0152】
は、第iの新しいスタイル表現と、第kのソースドメイン画像のソースドメイン内容表現とを生成ネットワークに入力することによって生成された第1の転移画像を表し、
【0153】
【数49】
【0154】
は、第jのターゲットドメインスタイル表現と、第kのソースドメイン画像のソースドメイン内容表現とを生成ネットワークに入力することによって生成された第2の転移画像を表し、d(・)は、2つの画像の間のスタイルの差の決定関数を表す。
【0155】
一部の実施形態において、第2の損失関数は、新しいスタイル表現の間の差を表すために使用される。第2の損失関数を用いた訓練は、生成される新しいドメインの多様性を保証するために、生成される新しいスタイル表現を互いに異なるようにすることができる。たとえば、第2の損失関数は、以下の式によって決定される。
【0156】
【数50】
【0157】
式(3)において、
【0158】
【数51】
【0159】
は、第iの新しいスタイル表現および第kのソースドメイン画像に対応する第2の損失関数を表し、1≦i≦Knであり、iは、正の整数であり、Knは、予め設定された数であり、Tdivは、最大化された距離の閾値を表すハイパーパラメータであり、
【0160】
【数52】
【0161】
は、第jの新しいスタイル表現と、第kのソースドメイン画像のソースドメイン内容表現とを生成ネットワークに入力することによって生成された第1の転移画像を表し、jは、正の整数であり、
【0162】
【数53】
【0163】
は、第iの新しいスタイル表現と、第kのソースドメイン画像のソースドメイン内容表現とを生成ネットワークに入力することによって生成された第1の転移画像を表し、d(・)は、2つの画像の間のスタイルの差の決定関数を表す。
【0164】
一部の実施形態において、第1の転移画像の意味表現およびソースドメイン画像の意味表現は、意味表現抽出器を使用して取得される。第3の損失関数は、ソースドメイン画像と、新しいスタイル表現およびソースドメイン内容表現を組み合わせて生成された画像(第1の転移画像)との間の意味的な差を表すために使用される。第3の損失関数を用いた訓練は、ソースドメインの意味ラベルが生成された画像に適用され得るように、第1の転移画像をそれらの対応するソースドメイン画像と意味的に一貫させることができる。たとえば、第3の損失関数は、以下の式によって決定される。
【0165】
【数54】
【0166】
式(4)において、
【0167】
【数55】
【0168】
は、第iの新しいスタイル表現および第kのソースドメイン画像に対応する第3の損失関数を表し、φsm(・)は、意味表現抽出器の関数を表し、
【0169】
【数56】
【0170】
は、第kのソースドメイン画像を表し、
【0171】
【数57】
【0172】
は、第iの新しいスタイル表現と、第kのソースドメイン画像のソースドメイン内容表現とを生成ネットワークに入力することによって取得された第1の転移画像を表す。
【0173】
一部の実施形態において、第1の損失関数、第2の損失関数、および第3の損失関数は、目標損失関数を取得するために重み付けされ、合計される。たとえば、目標損失関数は、以下の式によって決定される。
【0174】
【数58】
【0175】
式(5)においては、1≦k≦nsであり、λ1およびλ2は、それぞれ、
【0176】
【数59】
【0177】
および
【0178】
【数60】
【0179】
の重みである。
【0180】
一部の実施形態では、各訓練の反復(エポック)において、目標損失関数に従って勾配が決定され、新しいスタイル表現が、勾配および予め設定された学習率に従って調整される。たとえば、調整された新しいスタイル表現は、新しいスタイル表現に対応するベクトルから勾配と予め設定された学習率との積を減算することによって取得され得る。
【0181】
一部の実施形態においては、新しいスタイル表現を調整することに加えて、内容エンコーダ、スタイルエンコーダ、および生成器のパラメータが、目的に対応する予め設定された収束条件が満たされるまで、第1の損失関数、第2の損失関数、および第3の損失関数に従って調整され、目的に対応する予め設定された収束条件が満たされる場合、内容エンコーダによって出力されたソースドメイン内容表現が、更新されたソースドメイン内容表現として使用され、スタイルエンコーダによって出力されたターゲットドメインスタイル表現が、更新されたターゲットドメインスタイル表現として使用される。
【0182】
たとえば、各エポックにおいて、勾配が、目標損失関数に従って決定され、内容エンコーダ、スタイルエンコーダ、および生成器のパラメータが、勾配および予め設定された学習率に従って調整される。さらに、意味表現抽出器のパラメータも、調整され得る。
【0183】
各エポックにおいて、新しいスタイル表現が、目標損失関数に従って調整され、内容エンコーダ、スタイルエンコーダ、生成器、および意味表現抽出器のパラメータが、調整される。調整された新しいスタイル表現および更新されたソースドメイン内容表現が、第1の転移画像を取得するために生成ネットワークに入力され、更新されたターゲットドメインスタイル表現および更新されたソースドメイン内容表現が、第2の転移画像を取得するために生成ネットワークに入力され、第1の損失関数が、第1の転移画像とソースドメイン画像との間のスタイルの差、および第1の転移画像と第2の転移画像との間のスタイルの差に従って決定され、第2の損失関数が、第1の転移画像の間のスタイルの差に従って決定され、第3の損失関数が、第1の転移画像の意味表現とソースドメイン画像の意味表現との間の差に従って決定され、目標損失関数が、第1の損失関数、第2の損失関数、および第3の損失関数に従って決定される。上記のプロセスが、目的に対応する予め設定された収束条件が達せられるまで繰り返される。たとえば、予め設定された収束条件は、目標損失関数の最小値であるが、これは、本開示において限定されない。
【0184】
ステップS106において、複数の新しいスタイル表現と更新されたソースドメイン内容表現とを組み合わせることによって第1の画像が生成され、更新されたターゲットドメインスタイル表現と更新されたソースドメイン内容表現とを組み合わせることによって第2の画像が生成される。
【0185】
一部の実施形態において、目的に対応する予め設定された収束条件が満たされる場合、複数の新しいスタイル表現および更新されたソースドメイン内容表現が、第1の画像を取得するために生成ネットワークに入力され、更新されたターゲットドメインスタイル表現および更新されたソースドメイン内容表現が、第2の画像を取得するために生成ネットワークに入力される。前述の実施形態の訓練プロセスを利用することによって、訓練された生成ネットワークが取得され得る。第1の画像および第2の画像は、図2に示されるように、訓練された生成ネットワークを使用して生成される。
【0186】
ステップS108において、物体検出モデルが、訓練された物体検出モデルを取得するために第1の画像、第2の画像、およびソースドメイン画像を使用して訓練される。
【0187】
ステップS102からS104は、更新されたソースドメイン内容表現、更新されたターゲットドメインスタイル表現、および敵対的に生成された新しいスタイル表現を取得するために、新規のスタイルの敵対的な探索を含む訓練プロセスの第1段階である。そして、ステップS106は、訓練プロセスの第2段階(ステップS108)において、すなわち、不変の訓練ドメインにおいて物体検出モデルを訓練するために使用される第1および第2の画像を生成するために使用される。
【0188】
第1の画像と第2の画像との両方が同じソースドメイン内容表現に基づいて生成されるので、第1の画像および第2の画像は、第1の画像および第2の画像に対応するソースドメイン画像と同じ内容表現表現を有し、それらの意味ラベルは、一貫しており、したがって、ソースドメイン意味ラベルが、第1の画像および第2の画像の意味ラベルとして使用され得る。
【0189】
一部の実施形態においては、第1の画像が、第1の画像の物体検出結果を取得するために物体検出モデルに入力され、第2の画像が、第2の画像の物体検出結果を取得するために物体検出モデルに入力され、ソースドメイン画像が、ソースドメイン画像の物体検出結果を取得するために物体検出モデルに入力され、物体検出損失関数が、第1の画像の物体検出結果との、第2の画像の物体検出結果との、およびソースドメイン画像の物体検出結果とのソースドメイン画像のラベリング情報の差に従って決定され、物体検出モデルのパラメータが、物体検出損失関数に従って調整される。第1の画像または第2の画像に対応するソースドメイン画像は、第1の画像または第2の画像を生成するために使用されるソースドメイン内容表現が属するソースドメイン画像を指す。
【0190】
一部の実施形態においては、図2に示されるように、物体検出モデルは、基本表現抽出ネットワークおよび物体検出ネットワークを含む。第1の画像、第2の画像、およびソースドメイン画像が、第1の画像の基本表現、第2の画像の基本表現、およびソースドメイン画像の基本表現を取得するために、それぞれ、基本表現抽出ネットワークに入力される。そして、第1の画像の基本表現、第2の画像の基本表現、およびソースドメイン画像の基本表現が、第1の画像の物体検出結果、第2の画像の物体検出結果、およびソースドメイン画像の物体検出結果を取得するために物体検出ネットワークに入力される。
【0191】
一部の実施形態において、物体検出結果は、測位結果および/または分類結果を含む。測位結果は、検出された物体の位置(たとえば、検出された物体の矩形ボックスの座標)であり、分類結果は、検出された物体のカテゴリ(たとえば、カテゴリは、車両、人物、背景などを含む)であり、ソースドメイン画像のラベリング情報は、ソースドメイン画像内の物体の位置、および/またはソースドメイン画像内の物体のカテゴリを含む。
【0192】
物体検出結果が測位結果および分類結果を含む場合、測位損失関数が、第1の画像の測位結果との、第2の画像の測位結果との、およびソースドメイン画像の測位結果とのソースドメイン画像内の物体の位置の差に従って決定され、分類損失関数が、第1の画像の分類結果との、第2の画像の分類結果との、およびソースドメイン画像の分類結果とのソースドメイン画像内の物体のカテゴリの差に従って決定され、測位損失関数および分類損失関数が、物体検出損失関数を取得するために重み付けされ、合計される。物体検出結果が測位結果または分類結果のみを含む場合、測位損失関数または分類損失関数のみが決定され、これは、繰り返されない。
【0193】
一部の実施形態において、測位損失関数の各々は、以下の式によって決定される。
【0194】
【数61】
【0195】
式(6)において、
【0196】
【数62】
【0197】
は、第kのソースドメイン画像に対応する測位損失を表し、
【0198】
【数63】
【0199】
は、第kのソースドメイン画像を表し、
【0200】
【数64】
【0201】
は、第kのソースドメイン画像内の物体の位置を表し、
【0202】
【数65】
【0203】
は、第kのソースドメイン画像の測位結果および第kのソースドメイン画像内の物体の位置によって決定される測位損失を表し、diは、複数の新しいスタイル表現および更新されたターゲットドメインスタイル表現のセットの第iのスタイル表現を表し、
【0204】
【数66】
【0205】
は、第iのスタイル表現を第kのソースドメイン画像の更新されたソースドメイン内容表現と組み合わせることによって生成された画像を表し、その画像は、第1の画像のうちの1つまたは第2の画像のうちの1つであり、
【0206】
【数67】
【0207】
は、画像
【0208】
【数68】
【0209】
の測位結果および第kのソースドメイン画像内の物体の位置に対応する測位損失を表し、1≦i≦Ndであり、iは、正の整数であり、Ndは、複数の新しいスタイル表現および更新されたターゲットドメインスタイル表現のセットのスタイル表現の総数を表す。
【0210】
一部の実施形態において、分類損失関数の各々は、以下の式によって決定される。
【0211】
【数69】
【0212】
式(7)において、
【0213】
【数70】
【0214】
は、第kのソースドメイン画像に対応する分類損失を表し、
【0215】
【数71】
【0216】
は、第kのソースドメイン画像を表し、
【0217】
【数72】
【0218】
は、第kのソースドメイン画像内の物体のカテゴリを表し、
【0219】
【数73】
【0220】
は、第kのソースドメイン画像の分類結果および第kのソースドメイン画像内の物体のカテゴリに対応する分類損失であり、diは、複数の新しいスタイル表現および更新されたターゲットドメインスタイル表現のセットの第iのスタイル表現を表し、
【0221】
【数74】
【0222】
は、第iのスタイル表現を第kのソースドメイン画像の更新されたソースドメイン内容表現と組み合わせることによって生成された画像を表し、その画像は、第1の画像のうちの1つまたは第2の画像のうちの1つであり、
【0223】
【数75】
【0224】
は、画像
【0225】
【数76】
【0226】
の分類結果および第kのソースドメイン画像内の物体のカテゴリに対応する分類損失を表し、1≦i≦Ndであり、iは、正の整数であり、Ndは、複数の新しいスタイル表現および更新されたターゲットドメインスタイル表現のセットのスタイル表現の総数を表す。
【0227】
物体検出モデルの精度をさらに向上させるために、ドメイン識別結果を通じて物体検出モデルを訓練するために識別器が追加され得る。一部の実施形態においては、図2に示されるように、第1の画像の基本表現、第2の画像の基本表現、ソースドメイン画像の基本表現、およびターゲットドメイン画像の基本表現が、第1の画像の識別結果、第2の画像の識別結果、ソースドメイン画像の識別結果、およびターゲットドメイン画像の識別結果を取得するために、勾配反転層に入力され、それから、識別ネットワークに入力され、識別損失関数が、第1の画像の識別結果、第2の画像の識別結果、ソースドメイン画像の識別結果、およびターゲットドメイン画像の識別結果に従って決定され、物体検出モデルのパラメータが、物体検出損失関数および識別損失関数に従って調整される。
【0228】
様々な基本表現が識別器に入力される前に、それらの基本表現は、表現の勾配を反転させるために勾配反転層に入力され、識別器および基本表現抽出ネットワークが逆方向に最適化することを可能にし、基本表現抽出ネットワークにドメイン不変表現(domain-invariant representation)を学習させる。
【0229】
一部の実施形態において、識別損失関数は、以下の式によって決定される。
【0230】
【数77】
【0231】
式(8)から(10)において、
【0232】
【数78】
【0233】
は、第iのソースドメイン画像を表し、nsは、ソースドメイン画像の数を表し、
【0234】
【数79】
【0235】
は、ソースドメイン画像の識別結果に従って決定されるソースドメイン識別損失関数を表し、
【0236】
【数80】
【0237】
は、第jのターゲットドメイン画像を表し、
【0238】
【数81】
【0239】
は、第jのターゲットドメイン画像が属するスタイルを表し、ntは、ターゲットドメイン画像の数を表し、1≦j≦ntであり、jは、正の整数であり、
【0240】
【数82】
【0241】
は、ターゲットドメイン画像の識別結果に従って決定されるターゲットドメイン識別損失関数を表し、dkは、複数の新しいスタイル表現および更新されたターゲットドメインスタイル表現のセットの第kのスタイル表現を表し、
【0242】
【数83】
【0243】
は、第kのスタイル表現を第iのソースドメイン画像の更新されたソースドメイン内容表現と組み合わせることによって生成された画像を表し、1≦k≦Ndであり、kは、正の整数であり、Ndは、複数の新しいスタイル表現および更新されたターゲットドメインスタイル表現のセットのスタイル表現の総数を表し、
【0244】
【数84】
【0245】
は、第1の画像の識別結果および第2の画像の識別結果に従って決定される識別損失関数を表す。
【0246】
上記の式(8)から(10)において、識別損失関数は、3つの部分、すなわち、ソースドメイン識別損失関数と、ターゲットドメイン損失関数と、第1の画像の識別結果および第2の画像の識別結果に応じて決定される識別損失関数とを含む。損失関数の各々は、以下の式によって決定され得る。
【0247】
【数85】
【0248】
式(12)から(14)においては、1≦h≦Hであり、hは、画像のピクセルの高さを表す正の整数であり、1≦w≦Wであり、wは、画像のピクセルの幅を表す正の整数であり、HおよびWは、それぞれ、画像のピクセルの最大の高さおよび最大の幅を表し、F(・)は、基本表現抽出ネットワークおよび勾配反転層の関数を表す。
【0249】
一部の実施形態においては、物体検出損失関数および識別損失関数が、物体検出モデルのパラメータを調整するための全体的損失関数を取得するために重み付けされ、合計される。全体的損失関数は、以下の式によって決定され得る。
【0250】
【数86】
【0251】
式(15)においてλLOCおよびλCLSは、それぞれ、
【0252】
【数87】
【0253】
および
【0254】
【数88】
【0255】
の重みである。
【0256】
一部の実施形態においては、物体検出モデルおよび識別器のパラメータが、各訓練の反復中に全体的損失関数に従って調整される。特定の訓練プロセスに関しては、既存のテクノロジーが参照されることが可能であり、それは、本明細書において繰り返されない。基本表現抽出ネットワークは、VGG、ResNetなどのCNNモデルを採用してよく、これは、本明細書において提供される例に限定されない。
【0257】
本開示の訓練プロセスは、2つの段階を含む。第1段階において、敵対的探索に基づいて新しいスタイルを生成する方法が、3つの目的で、すなわち、ソースドメインスタイル表現およびターゲットドメインスタイル表現と異なる新しいスタイル表現を生成するため、互いに異なる新しいスタイル表現を生成するため、および新しいスタイル表現とソースドメイン内容表現とを組み合わせることによって生成された画像がソースドメイン画像と一貫した意味を有することを可能にするために実行される。第2段階において、物体検出モデルが、不変のドメインにおいて訓練される。このプロセスは、スタイル表現の擬似ドメインラベル(たとえば、各ターゲットドメイン画像が、クラスタリングを通じて擬似ドメインラベルを与えられる)に基づいており、複数のドメインに対してロバストな物体検出モデルおよび表現が、敵対的訓練メカニズムを通じて取得される。
【0258】
上記の実施形態の方法において、複数の新しいスタイル表現は、ソースドメイン画像のソースドメイン内容表現およびターゲットドメイン画像のターゲットドメインスタイル表現に基づいて自動的に生成される。生成された新しいスタイル表現は、互いに異なり、ソースドメインスタイル表現およびターゲットドメインスタイル表現とも異なる。さらに、新しいスタイル表現をソースドメイン内容表現と組み合わせることによって生成された画像の意味は、ソースドメイン画像の意味と一貫している。したがって、新しいスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって生成された第1の画像は、物体検出モデルのドメイン適応訓練のための訓練サンプルとして使用され得る。さらに、ソースドメイン画像はもちろん、ターゲットドメインスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって生成された第2の画像も、物体検出モデルのドメイン適応訓練のための訓練サンプルとして使用され得る。本開示の訓練のための新しいスタイル表現を自動的に生成することによって、訓練の効率が改善されることが可能であり、手動アノテーションのコストが削減されることが可能である。加えて、複数の新しいスタイル表現およびターゲットドメインスタイル表現が、訓練サンプルを生成するために一緒に使用されることが可能であり、訓練サンプルのスタイルの増加した数をもたらし得る。これは、訓練された物体検出モデルが、複数のスタイルの画像を正確に検出することを可能にし、それによって、物体検出モデルの有効性を向上させる。
【0259】
訓練された物体検出モデルは、画像内の物体を検出するために使用され得る。一部の実施形態においては、検出される画像が、検出される画像の物体検出結果を取得するために、訓練された物体検出モデルに入力される。
【0260】
本開示は、図3を参照して以下で説明される画像処理装置も提供する。
【0261】
図3は、本開示の一部の実施形態による画像処理装置の構造図である。図3に示されるように、この実施形態の装置30は、取得モジュール310と、表現生成モジュール320と、画像生成モジュール330と、訓練モジュール340とを含む。
【0262】
取得モジュール310は、ソースドメイン画像のソースドメイン内容表現およびターゲットドメイン画像のターゲットドメインスタイル表現を取得するように構成される。
【0263】
一部の実施形態において、取得モジュール310は、内容エンコーダを使用してソースドメイン画像のソースドメイン内容表現を抽出し、スタイルエンコーダを使用してターゲットドメイン画像のターゲットドメインスタイル表現を抽出するように構成される。
【0264】
一部の実施形態において、スタイルエンコーダは、スタイル表現抽出ネットワークおよびクラスタリングモジュールを含む。取得モジュール310は、ターゲットドメイン画像の基本スタイル表現を取得するためにスタイル表現抽出ネットワークにターゲットドメイン画像を入力し、ターゲットドメインスタイル表現としてクラスタリングの中心の表現ベクトルを取得するためのクラスタリングのためにクラスタリングモジュールにターゲットドメイン画像の基本スタイル表現を入力するように構成される。
【0265】
表現生成モジュール320は、互いに異なる複数の新しいスタイル表現が、ソースドメイン画像のソースドメインスタイル表現およびターゲットドメインスタイル表現と異なっており、複数の新しいスタイル表現とソースドメイン内容表現とを組み合わせることによって生成された画像が、ソースドメイン画像と意味的に一貫していることを目的として、複数の新しいスタイル表現を生成し、ソースドメイン内容表現およびターゲットドメインスタイル表現を更新するように構成される。
【0266】
一部の実施形態において、表現生成モジュール320は、予め設定された数の新しいスタイル表現をランダムに生成し、第1の転移画像を取得するために生成ネットワークに新しいスタイル表現およびソースドメイン内容表現を入力することと、第2の転移画像を取得するために生成ネットワークにターゲットドメインスタイル表現およびソースドメイン内容表現を入力することと、第1の転移画像とソースドメイン画像との間のスタイルの差、および第1の転移画像と第2の転移画像との間のスタイルの差に従って第1の損失関数を決定することであって、第1の損失関数が、新しいスタイル表現とソースドメインスタイル表現との間の差、および新しいスタイル表現とターゲットドメインスタイル表現との間の差を表すために使用される、決定することと、第1の転移画像の間のスタイルの差に従って第2の損失関数を決定することであって、第2の損失関数が、新しいスタイル表現の間の差を表すために使用される、決定することと、第1の転移画像の意味表現とソースドメイン画像の意味表現との間の差に従って第3の損失関数を決定することであって、第3の損失関数が、ソースドメイン画像と、新しいスタイル表現とソースドメイン内容表現とを組み合わせることによって生成された画像との間の意味的な差を表すために使用される、決定することと、複数の新しいスタイル表現を取得するために、目的に対応する予め設定された収束条件が満たされるまで、第1の損失関数、第2の損失関数、および第3の損失関数に従って新しいスタイル表現を調整することとを行うように構成される。
【0267】
一部の実施形態において、表現生成モジュール320は、目的に対応する予め設定された収束条件が満たされるまで、第1の損失関数、第2の損失関数、および第3の損失関数に従って内容エンコーダ、スタイルエンコーダ、および生成ネットワークのパラメータを調整し、目的に対応する予め設定された収束条件が満たされる場合、内容エンコーダによって出力されたソースドメイン内容表現を、更新されたソースドメイン内容表現とし、スタイルエンコーダによって出力されたターゲットドメインスタイル表現を、更新されたターゲットドメインスタイル表現とするように構成される。
【0268】
一部の実施形態において、第1の転移画像のいずれかと、第1の転移画像のいずれかに対応するソースドメイン画像とを、それぞれ、第1の参照画像および第2の参照画像とするか、または第1の転移画像のいずれかと、第1の転移画像のいずれかに対応する第2の転移画像とを、それぞれ、第1の参照画像および第2の参照画像とするか、または第1の転移画像のうちの任意の2つを、それぞれ、第1の参照画像および第2の参照画像として、第1の参照画像と第2の参照画像との間のスタイルの差が、以下の方法、すなわち、第1の参照画像および第2の参照画像を、事前に訓練された表現抽出ネットワークの複数の予め設定された表現層に入力すること、複数の予め設定された表現層の各々に関して、複数の予め設定された表現層の各々によって出力された第1の参照画像の表現の平均値および分散を第1の平均値および第1の分散として決定し、複数の予め設定された表現層の各々によって出力された第2の参照画像の表現の平均値および分散を第2の平均値および第2の分散として決定すること、ならびに第1の参照画像と第2の参照画像との間のスタイルの差を、複数の予め設定された表現層の各々に対応する第1の平均値と第2の平均値との間の差および第1の分散と第2の分散との間の差に従って決定することで決定される。
【0269】
第1の損失関数、第2の損失関数、および第3の損失関数は、式(2)から(4)に従って決定されることが可能であり、これは、本明細書において繰り返されない。
【0270】
一部の実施形態において、表現生成モジュール320は、第1の損失関数、第2の損失関数、および第3の損失関数を重み付けし、合計することによって目標損失関数を取得すること、目標損失関数に従って勾配を決定すること、ならびに勾配および予め設定された学習率に従って新しいスタイル表現を調整することであって、ランダムに生成される予め設定された数の新しいスタイル表現の各次元の値が、標準正規分布からランダムにサンプリングされる、調整することを行うように構成される。
【0271】
画像生成モジュール330は、複数の新しいスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって第1の画像を生成し、更新されたターゲットドメインスタイル表現を更新されたソースドメイン内容表現と組み合わせることによって第2の画像を生成するように構成される。
【0272】
一部の実施形態において、画像生成モジュール330は、目的に対応する予め設定された収束条件が満たされる場合、第1の画像を取得するために、複数の新しいスタイル表現および更新されたソースドメイン内容表現を生成ネットワークに入力され、第2の画像を取得するために、更新されたターゲットドメインスタイル表現および更新されたソースドメイン内容表現を生成ネットワークに入力するように構成される。
【0273】
訓練モジュール340は、訓練された物体検出モデルを取得するために第1の画像、第2の画像、およびソースドメイン画像を使用して物体検出モデルを訓練するように構成される。
【0274】
一部の実施形態において、訓練モジュール340は、第1の画像の物体検出結果を取得するために物体検出モデルに第1の画像を入力し、第2の画像の物体検出結果を取得するために物体検出モデルに第2の画像を入力し、ソースドメイン画像の物体検出結果を取得するために物体検出モデルにソースドメイン画像を入力し、第1の画像の物体検出結果との、第2の画像の物体検出結果との、およびソースドメイン画像の物体検出結果とのソースドメイン画像のラベリング情報の差に従って物体検出損失関数を決定し、物体検出損失関数に従って物体検出モデルのパラメータを調整するように構成される。
【0275】
一部の実施形態において、訓練モジュール340は、第1の画像の基本表現を取得するために物体検出モデルの基本表現抽出ネットワークに第1の画像を入力し、第2の画像の基本表現を取得するために物体検出モデルの基本表現抽出ネットワークに第2の画像を入力し、ソースドメイン画像の基本表現を取得するために物体検出モデルの基本表現抽出ネットワークにソースドメイン画像を入力し、ターゲットドメイン画像の基本表現を取得するために物体検出モデルの基本表現抽出ネットワークにターゲットドメイン画像を入力し、第1の画像の識別結果を取得するために、第1の画像の基本表現を勾配反転層に入力し、それから、識別ネットワークに入力し、第2の画像の識別結果を取得するために、第2の画像の基本表現を勾配反転層に入力し、それから、識別ネットワークに入力し、ソースドメイン画像の識別結果を取得するために、ソースドメイン画像の基本表現を勾配反転層に入力し、それから、識別ネットワークに入力し、ターゲットドメイン画像の識別結果を取得するために、ターゲットドメイン画像の基本表現を勾配反転層に入力し、それから、識別ネットワークに入力し、第1の画像の識別結果、第2の画像の識別結果、ソースドメイン画像の識別結果、およびターゲットドメイン画像の識別結果に従って識別損失関数を決定し、物体検出損失関数および識別損失関数に従って物体検出モデルのパラメータを調整するように構成される。
【0276】
一部の実施形態において、物体検出結果は、測位結果および分類結果を含み、測位結果は、検出された物体の位置であり、分類結果は、検出された物体のカテゴリであり、ソースドメイン画像のラベリング情報は、ソースドメイン画像内の物体の位置およびソースドメイン画像内の物体のカテゴリを含み、訓練モジュール340は、第1の画像の測位結果との、第2の画像の測位結果との、およびソースドメイン画像の測位結果とのソースドメイン画像内の物体の位置の差に従って測位損失関数を決定し、第1の画像の分類結果との、第2の画像の分類結果との、およびソースドメイン画像の分類結果とのソースドメイン画像内の物体のカテゴリの差に従って分類損失関数を決定し、物体検出損失関数を取得するために測位損失関数および分類損失関数を重み付けし、合計するように構成される。
【0277】
測位損失関数、分類損失関数、および識別損失関数に関しては、上記の実施形態において説明された式(6)から(15)が参照されることが可能であり、これは、本明細書において繰り返されない。
【0278】
一部の実施形態において、画像処理装置30は、検出される画像の物体検出結果を取得するために、検出される画像を訓練された物体検出モデルに入力するように構成された物体検出モジュール350をさらに含む。
【0279】
本開示の実施形態の画像処理装置は、図4および図5を参照して以下で説明される様々なコンピューティングデバイスまたはコンピュータシステムによって実装されてよい。
【0280】
図4は、本開示の一部の実施形態による画像処理装置の構造図である。図4に示されるように、この実施形態の装置40は、メモリ410およびメモリ410に結合されたプロセッサ420を含み、プロセッサ420は、メモリ410に記憶された命令に基づいて、本開示の実施形態のいずれか1つによる画像処理方法を実行するように構成される。
【0281】
そこで、メモリ410は、たとえば、システムメモリ、固定式の不揮発性ストレージ媒体などを含む場合がある。システムメモリは、たとえば、オペレーティングシステム、アプリケーション、ブートローダ、データベース、およびその他のプログラムを記憶する。
【0282】
図5は、本開示のその他の実施形態による画像処理装置の構造図である。図5に示されるように、この実施形態の装置50は、それぞれメモリ410およびプロセッサ420と同様のメモリ510およびプロセッサ520を含む。装置50は、入出力インターフェース530、ネットワークインターフェース540、ストレージインターフェース550などをさらに含む場合がある。これらのインターフェース530、540、550、メモリ510、およびプロセッサ520は、たとえば、バス560によって接続されてよい。そこで、入出力インターフェース530は、ディスプレイ、マウス、キーボード、およびタッチスクリーンなどの入出力デバイスのための接続インターフェースを提供する。ネットワークインターフェース540は、様々なネットワークデバイスのための接続インターフェースを提供し、たとえば、ネットワークインターフェース540は、データベースサーバまたはクラウドストレージサーバに接続され得る。ストレージインターフェース550は、SDカードおよびUSBフラッシュディスクなどの外部ストレージデバイスのための接続インターフェースを提供する。
【0283】
当業者は、本開示の実施形態が方法、システム、またはコンピュータプログラム製品として提供される場合があることを理解するはずである。したがって、本開示の実施形態は、すべてハードウェアの実施形態、すべてソフトウェアの実施形態、またはハードウェア要素とソフトウェア要素との両方を含む実施形態の形態をとり得る。さらに、本開示は、コンピュータが使用可能なプログラムコードが具現化された(ディスクストレージ、CD-ROM、光学式ストレージデバイスなどを含むがこれらに限定されない)1つまたは複数のコンピュータが使用可能な非一時的ストレージ媒体上に具現化されたコンピュータプログラム製品の形態をとる場合がある。
【0284】
本開示は、本開示の実施形態による方法、装置(システム)、およびコンピュータプログラム製品の流れ図および/またはブロック図を参照して説明されている。流れ図および/またはブロック図の各プロセスおよび/またはブロック、ならびに流れ図および/またはブロック図のプロセスおよび/またはブロックの組合せは、コンピュータプログラム命令によって実装される場合があることを理解されたい。コンピュータプログラム命令は、コンピュータまたはその他のプログラミング可能なデータ処理デバイスのプロセッサによって実行される命令が流れ図の1つもしくは複数のフローおよび/またはブロック図の1つもしくは複数のブロックの規定された機能を実装する手段を生成するような機械を生成するために多目的コンピュータ、専用コンピュータ、組み込みプロセッサ、またはその他のプログラミング可能なデータ処理デバイスのプロセッサに提供されてよい。
【0285】
コンピュータプログラム命令は、コンピュータ可読ストレージデバイスに記憶された命令が流れ図の1つもしくは複数のフローおよび/またはブロック図の1つもしくは複数のブロックの規定された機能を実装する命令手段を含む製品を生むような特定の方法で動作するようにコンピュータまたはその他のプログラミング可能なデータ処理装置に指示することができるコンピュータ可読ストレージデバイスに記憶される場合もある。
【0286】
これらのコンピュータプログラム命令は、コンピュータまたはその他のプログラミング可能なデバイス上で実行される命令が流れ図の1つもしくは複数のフローおよび/またはブロック図の1つもしくは複数のブロックの規定された機能を実施するステップを提供するようなコンピュータによって実施されるプロセスを生成するようにコンピュータまたはその他のプログラミング可能なデバイス上で一連の動作ステップを実行するためにコンピュータまたはその他のプログラミング可能なデバイスにロードされることも可能である。
以上は、本開示の好ましい実施形態であるに過ぎず、本開示に対する限定ではない。本開示の精神および原理の中で、すべての修正、置き換え、改善などは、本開示の保護範囲に含まれる。
【符号の説明】
【0287】
300 装置
310 取得モジュール
320 表現生成モジュール
330 画像生成モジュール
340 訓練モジュール
350 物体検出モジュール
400 装置
410 メモリ
420 プロセッサ
50 装置
510 メモリ
520 プロセッサ
530 入出力インターフェース
540 ネットワークインターフェース
550 ストレージインターフェース
560 バス
図1
図2
図3
図4
図5
【手続補正書】
【提出日】2023-12-14
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】図1
【補正方法】変更
【補正の内容】
図1
【国際調査報告】