IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京京▲東▼尚科信息技▲術▼有限公司の特許一覧 ▶ 北京京東世紀貿易有限公司の特許一覧

特許7383801画像記述生成方法、装置、システム、媒体及び電子機器
<>
  • 特許-画像記述生成方法、装置、システム、媒体及び電子機器 図1
  • 特許-画像記述生成方法、装置、システム、媒体及び電子機器 図2
  • 特許-画像記述生成方法、装置、システム、媒体及び電子機器 図3
  • 特許-画像記述生成方法、装置、システム、媒体及び電子機器 図4
  • 特許-画像記述生成方法、装置、システム、媒体及び電子機器 図5
  • 特許-画像記述生成方法、装置、システム、媒体及び電子機器 図6
  • 特許-画像記述生成方法、装置、システム、媒体及び電子機器 図7
  • 特許-画像記述生成方法、装置、システム、媒体及び電子機器 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-10
(45)【発行日】2023-11-20
(54)【発明の名称】画像記述生成方法、装置、システム、媒体及び電子機器
(51)【国際特許分類】
   G06V 20/70 20220101AFI20231113BHJP
   G06F 16/583 20190101ALI20231113BHJP
   G06T 7/00 20170101ALI20231113BHJP
   G06V 10/82 20220101ALI20231113BHJP
   G06N 3/04 20230101ALI20231113BHJP
   G06N 3/08 20230101ALI20231113BHJP
【FI】
G06V20/70
G06F16/583
G06T7/00 350C
G06V10/82
G06N3/04
G06N3/08
【請求項の数】 11
(21)【出願番号】P 2022517943
(86)(22)【出願日】2021-03-02
(65)【公表番号】
(43)【公表日】2022-11-25
(86)【国際出願番号】 CN2021078673
(87)【国際公開番号】W WO2021190257
(87)【国際公開日】2021-09-30
【審査請求日】2022-03-18
(31)【優先権主張番号】202010231097.2
(32)【優先日】2020-03-27
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】519274389
【氏名又は名称】北京京▲東▼尚科信息技▲術▼有限公司
【氏名又は名称原語表記】BEIJING JINGDONG SHANGKE INFORMATION TECHNOLOGY CO., LTD.
【住所又は居所原語表記】8TH FLOOR OF BUILDING, NO. 76, ZHICHUN ROAD, HAIDIAN DISTRICT, BEIJING 100086, PEOPLE’S REPUBLIC OF CHINA
(73)【特許権者】
【識別番号】517241916
【氏名又は名称】北京京東世紀貿易有限公司
【氏名又は名称原語表記】BEIJING JINGDONG CENTURY TRADING CO., LTD.
【住所又は居所原語表記】Room 201, 2/F, Block C, No.18, Kechuang 11th Street, Beijing Economic and Technological Development Zone, Beijing 100176, China
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】潘 ▲イン▼ ▲ウェイ▼
(72)【発明者】
【氏名】李 業 豪
(72)【発明者】
【氏名】姚 霆
(72)【発明者】
【氏名】梅 涛
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】中国特許出願公開第110472642(CN,A)
【文献】特表2016-506260(JP,A)
【文献】中国特許出願公開第109101948(CN,A)
【文献】中国特許出願公開第110555337(CN,A)
【文献】欧州特許出願公開第03611663(EP,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 10/00 - 20/90
G06T 7/00 - 7/90
G06N 3/04 - 3/0985
G06F 16/583
(57)【特許請求の範囲】
【請求項1】
画像記述生成装置または画像記述生成システムにより実行される画像記述生成方法であって、
目標画像における画像領域の特徴を取得し、前記画像領域の特徴に対して平均プーリング処理を行うことにより現在の入力ベクトルを得るステップと、
前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得るステップと、
前記画像領域の特徴の外積ベクトルに基づいて、空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布を取得するステップと、
空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布に基づいて、前記目標画像の画像記述を生成するステップと、を含み、
前記画像領域の特徴の外積ベクトルに基づいて、空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布を計算するステップは、
前記画像領域の特徴の外積ベクトルをマッピングすることにより、空間次元における前記画像領域の特徴の注意分布を得るステップと、
前記画像領域の特徴の外積ベクトルに対して圧縮及び励起処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意分布を得るステップと、を含む
画像記述生成方法。
【請求項2】
目標画像における画像領域の特徴を取得するステップは、
記目標画像を検出することにより、前記目標画像に含まれるオブジェクトを得るステップと、
前記目標画像に含まれるオブジェクトに対応する画像領域の特徴を取得するステップと、を含む
請求項1に記載の画像記述生成方法。
【請求項3】
前記画像領域の特徴の外積ベクトルをマッピングすることにより、空間次元における前記画像領域の特徴の注意分布を得るステップは、
前記画像領域の特徴の外積ベクトルをマッピングすることにより、各画像領域に対応する注意の重みを得るステップと、
前記各画像領域に対応する注意の重みに対して正規化処理を行うことにより、空間次元における前記画像領域の特徴の注意分布を得るステップと、を含む
請求項1に記載の画像記述生成方法。
【請求項4】
前記画像領域の特徴の外積ベクトルに対して圧縮及び励起処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意分布を得るステップは、
空間次元において前記画像領域の特徴の外積ベクトルを融合することにより、圧縮後のチャンネル表現を得るステップと、
前記圧縮後のチャンネル表現に対して励起処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意の重みを得るステップと、
各チャンネル次元における前記画像領域の特徴の注意の重みに対して正規化処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意分布を得るステップと、を含む
請求項1に記載の画像記述生成方法。
【請求項5】
空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布に基づいて、前記目標画像の画像記述を生成するステップは、
空間次元における前記画像領域の特徴の注意分布に基づいて前記画像領域の特徴及び前記画像領域の特徴の外積ベクトルを融合することにより、現在の集約特徴を得るステップと、
チャンネル次元における前記画像領域の特徴の注意分布に基づいて前記現在の集約特徴を融合することにより、目標集約特徴を得るステップと、
前記目標集約特徴に基づいて前記目標画像の画像記述を生成するステップと、を含む
請求項1に記載の画像記述生成方法。
【請求項6】
前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得るステップは、
前記現在の入力ベクトル及び前記画像領域の特徴を指数マッピング処理し、指数マッピング処理後の現在の入力ベクトル及び指数マッピング処理後の画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得るステップを含む
請求項1に記載の画像記述生成方法。
【請求項7】
前記画像領域の特徴の外積ベクトルは、
デコーダの現在の隠れ状態特徴とエンコード後の画像領域の特徴との間の二次特徴のインタラクション情報を含む
請求項1から請求項6のいずれか1項に記載の画像記述生成方法。
【請求項8】
画像記述生成装置であって、
目標画像における画像領域の特徴を取得し、前記画像領域の特徴に対して平均プーリング処理を行うことにより現在の入力ベクトルを得るための第1処理モジュールと、
前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得るための第2処理モジュールと、
前記画像領域の特徴の外積ベクトルに基づいて、空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布を取得するための注意分布計算モジュールと、
空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布に基づいて、前記目標画像の画像記述を生成するための画像記述生成モジュールと、を含み、
前記画像領域の特徴の外積ベクトルに基づいて、空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布を計算することは、
前記画像領域の特徴の外積ベクトルをマッピングすることにより、空間次元における前記画像領域の特徴の注意分布を得ることと、
前記画像領域の特徴の外積ベクトルに対して圧縮及び励起処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意分布を得ることと、を含む
画像記述生成装置。
【請求項9】
画像記述生成システムであって、
目標画像における画像領域の特徴を取得するためのオブジェクト検出モジュールと、
ネットワークを介して前記オブジェクト検出モジュールに接続され、複数の高次注意モジュールを含むエンコーダと、
ネットワークを介して前記エンコーダに接続され、高次注意メカニズムを備える複数の長・短期記憶ネットワークを含むデコーダと、を含み、
前記複数の高次注意モジュールは、
前記画像領域の特徴に対して平均プーリング処理を行うことにより現在の入力ベクトルを得て;前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得て;前記画像領域の特徴の外積ベクトルに基づいて、空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布を取得するためのものであり、
高次注意メカニズムを備える前記複数の長・短期記憶ネットワークは、
空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布に基づいて、前記目標画像の画像記述を生成するためのものであり、
前記画像領域の特徴の外積ベクトルに基づいて、空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布を計算することは、
前記画像領域の特徴の外積ベクトルをマッピングすることにより、空間次元における前記画像領域の特徴の注意分布を得ることと、
前記画像領域の特徴の外積ベクトルに対して圧縮及び励起処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意分布を得ることと、を含む
画像記述生成システム。
【請求項10】
コンピュータプログラムが記憶されたコンピュータ読み取り可能な記録媒体であって、
前記コンピュータプログラムがプロセッサーによって実行される場合、請求項1から請求項7のいずれか1項に記載の画像記述生成方法を実現する
コンピュータ読み取り可能な記録媒体。
【請求項11】
プロセッサーと、
前記プロセッサーにより実行可能な指令を記憶するためのメモリと、を備え、
前記プロセッサーは、
前記実行可能な指令を実行することにより請求項1から請求項7のいずれか1項に記載の画像記述生成方法を実行するように構成される
電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施例は、画像処理の技術分野に関し、特に、画像記述(Image description)生成方法、画像記述生成装置、画像記述生成システム、コンピュータ読み取り可能な記録媒体及び電子機器に関する。
【0002】
本願は、出願番号が202010231097.2であり、出願日が2020年3月27日であり、発明の名称が「画像記述生成方法、装置、システム、媒体及び電子機器」である中国特許出願を基礎として優先権を主張し、当該中国特許出願の内容全体は、本願発明に援用される。
【背景技術】
【0003】
画像認識技術の発展に伴い、アルゴリズムにより画像の内容情報を画像のテキスト記述に変換することができる。画像記述自動生成タスクは、機械が人間のように画像を見て話す能力を持たせることである。即ち、画像の内容を深く理解させることにより、画像の内容に関連する記述文を自動的に生成させることを目的とする。
【0004】
従来の画像記述スキームにおいて、まず、デコーダの状態に基づいてエンコード後の画像において最も関連性の高い領域の特徴を探索し、その後、エンコード後の画像領域の特徴のそれぞれに異なる注意の重みを付与することにより画像レベルの特徴集約を実現し、集約された後の画像レベルの特徴をデコーダに入力することにより記述テキストのデコード過程を指導することができる。
【0005】
しかしながら、上記のスキームには、従来の注意モジュールは、通常、単一線形融合によりモダリティ(modality)間の特徴の相互学習を行い、本質的に異なるモダリティ間の一次特徴のインタラクションのみを発掘するので、生成された画像記述の精度が低いという欠点がある。
【0006】
このため、新たな画像記述生成方法及び装置を提供する必要がある。
なお、上記の背景技術に記載されている内容は、本発明の背景技術に対する理解を深めるためのものに過ぎないため、当業者に知られている従来技術を構成しない内容を含むことができる。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、画像記述生成方法、画像記述生成装置、画像記述生成システム、コンピュータ読み取り可能な記録媒体及び電子機器を提供し、さらに、少なくともある程度で関連技術の制限及び欠陥による生成された画像記述の精度が低いという問題を克服することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一態様によれば、画像記述生成方法を提供する。前記画像記述生成方法は、
目標画像における画像領域の特徴を取得し、前記画像領域の特徴に対して平均プーリング(pooling)処理を行うことにより現在の入力ベクトルを得るステップと、
前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得るステップと、
前記画像領域の特徴の外積ベクトルに基づいて、前記画像領域の特徴の空間次元(spatial dimension)における注意分布及びチャンネル次元における注意分布を取得するステップと、
空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布に基づいて、前記目標画像の画像記述を生成するステップと、を含む。
【0009】
本発明の一つの例示的な実施例において、目標画像における画像領域の特徴を取得するステップは、
前記対象画像を検出することにより、前記目標画像に含まれるオブジェクトを得るステップと、
前記目標画像に含まれるオブジェクトに対応する画像領域の特徴を取得するステップと、を含む。
【0010】
本発明の一つの例示的な実施例において、前記画像領域の特徴の外積ベクトルに基づいて、前記画像領域の特徴の空間次元における注意分布及びチャンネル次元における注意分布を計算するステップは、
前記画像領域の特徴の外積ベクトルをマッピング(mapping)することにより、空間次元における前記画像領域の特徴の注意分布を得るステップと、
前記画像領域の特徴の外積ベクトルに対して圧縮及び励起処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意分布を得るステップと、を含む。
【0011】
本発明の一つの例示的な実施例において、前記画像領域の特徴の外積ベクトルをマッピングすることにより、空間次元における前記画像領域の特徴の注意分布を得るステップは、
前記画像領域の特徴の外積ベクトルをマッピングすることにより、各画像領域に対応する注意の重み(weight)を得るステップと、
前記各画像領域に対応する注意の重みに対して正規化(normalization)処理を行うことにより、空間次元における前記画像領域の特徴の注意分布を得るステップと、を含む。
【0012】
本発明の一つの例示的な実施例において、前記画像領域の特徴の外積ベクトルに対して圧縮及び励起処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意分布を得るステップは、
空間次元において前記画像領域の特徴の外積ベクトルを融合(fusion)することにより、圧縮後のチャンネル表現を得るステップと、
前記圧縮後のチャンネル表現に対して励起処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意の重みを得るステップと、
各チャンネル次元における前記画像領域の特徴の注意の重みに対して正規化処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意分布を得るステップと、を含む。
【0013】
本発明の一つの例示的な実施例において、空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布に基づいて、前記目標画像の画像記述を生成するステップは、
空間次元における前記画像領域の特徴の注意分布に基づいて前記画像領域の特徴及び前記画像領域の特徴の外積ベクトルを融合することにより、現在の集約特徴を得るステップと、
チャンネル次元における前記画像領域の特徴の注意分布に基づいて前記現在の集約特徴を融合することにより、目標集約特徴を得るステップと、
前記目標集約特徴に基づいて、前記目標画像の画像記述を生成するステップと、を含む。
【0014】
本発明の一つの例示的な実施例において、前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得るステップは、
前記現在の入力ベクトル及び前記画像領域の特徴を指数マッピング処理を行うとともに、指数マッピング処理後の現在の入力ベクトル及び指数マッピング処理後の画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得るステップを含む。
【0015】
本発明の一つの例示的な実施例において、前記画像領域の特徴の外積ベクトルは、デコーダの現在の隠れ状態特徴とエンコード後の画像領域の特徴との間の二次特徴のインタラクション情報を含む。
【0016】
本発明の一態様によれば、画像記述生成装置を提供する。前記画像記述生成装置は、
目標画像における画像領域の特徴を取得するとともに、前記画像領域の特徴に対して平均プーリング処理を行うことにより現在の入力ベクトルを得るための第1処理モジュールと、
前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得るための第2処理モジュールと、
前記画像領域の特徴の外積ベクトルに基づいて、前記画像領域の特徴の空間次元における注意分布及びチャンネル次元における注意分布を取得するための注意分布計算モジュールと、
空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布に基づいて、前記目標画像の画像記述を生成するための画像記述生成モジュールと、を含む。
【0017】
本発明の一態様によれば、画像記述生成システムを提供する。前記画像記述生成システムは、
目標画像における画像領域の特徴を取得するためのオブジェクト検出モジュールと、
ネットワークを介して前記オブジェクト検出モジュールに接続され、複数の高次注意モジュールを含むエンコーダと、
ネットワークを介して前記エンコーダに接続され、高次注意メカニズムを備える複数の長・短期記憶ネットワークを含むデコーダと、を含むことを特徴とする。
【0018】
ここで、前記複数の高次注意モジュールは、前記画像領域の特徴に対して平均プーリング処理を行うことにより、現在の入力ベクトルを得て、
前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得て、
前記画像領域の特徴の外積ベクトルに基づいて、空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布を取得するためのものである。
【0019】
高次注意メカニズムを備える前記複数の長・短期記憶ネットワークは、空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布に基づいて、前記目標画像の画像記述を生成するためのものである。
【0020】
本発明の一態様によれば、コンピュータプログラムが記憶されたコンピュータ読み取り可能な記録媒体を提供し、前記コンピュータプログラムがプロセッサーによって実行される場合、上記のいずれか1つの例示的な実施例に記載の画像記述生成方法を実現する。
【0021】
本発明の一態様によれば、電子機器を提供する。前記電子機器は、
プロセッサーと、
前記プロセッサーにより実行可能な指令を記憶するためのメモリと、を備え、
前記プロセッサーは、前記実行可能な指令を実行することにより、上記のいずれか1つの例示的な実施例に記載の画像記述生成方法を実行するように構成される。
【発明の効果】
【0022】
本発明の実施例に係る画像記述生成方法によれば、画像領域の特徴に対して平均プーリング処理を行うことにより、現在の入力ベクトルを得る。その後、現在の入力ベクトル及び画像領域の特徴を線形融合することにより、画像領域の特徴の外積ベクトルを得る。さらに、画像領域の特徴の外積ベクトルに基づいて、空間次元における画像領域の特徴の注意分布及びチャンネル次元における画像領域の特徴の注意分布を計算する。最後に、画像領域の特徴の空間次元における注意分布及びチャンネル次元における注意分布に基づいて、目標画像の画像記述を生成する。これにより、従来技術において、従来の注意モジュールが通常に線形融合の実行によりモダリティ(modality)間の特徴の相互学習を行い、本質的に異なるモダリティ間の一次的な特徴のインタラクションのみを発掘するので、生成された画像記述の精度が低いという問題を解決し、生成された画像記述の精度を向上させることができる。一方で、前記画像領域の特徴の空間次元における注意分布及びチャンネル次元における注意分布に基づいて目標画像の画像記述を生成することにより、2つの次元における注意分布に基づいて目標画像の画像記述を生成することを実現することができる。
【0023】
なお、前記一般的な記載及び後述の詳細な記載は、単なる例示的で解釈的な記載であり、本発明を限定しない。
【0024】
以下の図面は、明細書に組み入れて本明細書の一部分を構成し、本発明に該当する実施例を例示するとともに、明細書とともに本発明の原理を解釈する。なお、以下の記載における図面は、ただ本発明の一部の実施例に過ぎない。当業者は、創造的な労働を付与しない前提で、これらの図面によって他の図面を得ることができる。
【図面の簡単な説明】
【0025】
図1】本発明の例示的な実施例に係る注意モデルを模式的に示すブロック図である。
図2】本発明の例示的な実施例に係る画像記述生成方法を模式的に示すフローチャートである。
図3】本発明の例示的な実施例に係る画像記述生成システムを模式的に示すブロック図である。
図4】本発明の例示的な実施例に係る前記画像領域の特徴の外積ベクトルに基づいて空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布を計算する方法を模式的に示すフローチャートである。
図5】本発明の例示的な実施例に係る前記空間次元における注意分布及びチャンネル次元における注意分布に基づいて前記目標画像の画像記述を生成する方法を模式的に示すフローチャートである。
図6】本発明の例示的な実施例に係る他の画像記述生成方法を模式的に示すフローチャートである。
図7】本発明の例示的な実施例に係る画像記述生成装置を模式的に示すブロック図である。
図8】本発明の例示的な実施例に係る上記の画像記述生成方法を実現するための電子機器を模式的に示す。
【発明を実施するための形態】
【0026】
以下、図面を参照しながら、例示的な実施形態をより全面的に説明する。ただし、例示的な実施形態は複数種類の形態で実施することができ、ここに記述する実施例に限定されないことを理解すべきである。逆に、これらの実施形態を提供することで、本発明がさらに全面で完全になるとともに、例示的な実施形態の思想を全面で当業者に伝達する。なお、説明される特徴、構成又は特性は、任意の適切な方式で一つ又は複数の実施形態に組み合わせることができる。以下の説明において、本発明の実施例を充分に理解するために、多くの具体的な細部を提供する。しかしながら、当業者であれば、特定の詳細の1つまたは複数を省略してもよく、または他の方法、ユニット、装置、ステップなどを本発明の技術案を実施する際に使用してもよいことは理解されるべきである。他の場合において、主題を圧倒して本発明の各態様を不明瞭にすることを避けるために、公知の技術案を詳しく示し又は説明しない。
【0027】
なお、図面は、本発明の模式的な図示に過ぎず、必ずしも縮尺通りに描かれてはいない。図面における同じ符号は、同じ又は類似する要素を示すため、それらの重複する説明を省略する。図面に示されるいくつかのブロック図は、機能的な実体であり、必ずしも物理的又は論理的に独立する実体に対応する必要はない。これらの機能的実体は、ソフトウェア形式で実現され、又は、1つ又は複数のハードウェアモジュール或いは集積回路で実現され、又は、異なるネットワーク及び/又はプロセッサー装置及び/又はマイクロコントローラ装置で実現されることができる。
【0028】
画像記述自動生成タスクは、機械が人間のように画像を見て話す能力を持たせることである。即ち、画像の内容を深く理解させることにより、画像の内容に関連する記述文を自動的に生成させることを目的とする。この研究タスクは、コンピュータ視覚及び自然言語処理の2つの方向を含み、人工知能分野におけるモダリティ間の相互学習の1つの重要な課題でもある。
【0029】
現在主流とする画像記述生成モデルは、いずれも「エンコーダ-デコーダ」という設計理念に従っている。即ち、まず、畳み込みニューラルネットワークを利用して入力画像をエンコードし、その後、循環神経ネットワークを利用して記述文をデコードする。しかし、このような通用の設計理念は、異なるモダリティ間の特徴のインタラクションを無視しているので、このような設計理念を簡単に利用してシステムを構築するだけでは、高品質な記述文を生成することができない。
【0030】
このような欠点を補うために、近年、業界では、エンコーダーデーコーダの設計フレームワークにおいて異なるモダリティ間の特徴のインタラクションを実現可能な研究を注意メカニズムに集中し始める。具体的に、注意メカニズムは、どのようにしてデコーダの状態に基づいてエンコード後の画像において最も関連性の高い領域の特徴を探索するかを学習し、その後、エンコード後の画像領域の特徴のそれぞれに異なる注意の重みを付与することにより画像レベルの特徴集約を実現し、集約された後の画像レベルの特徴をデコーダに入力することにより記述テキストのデコード過程を指導することができる。
【0031】
図1は、従来の注意モジュールの具体的構造を示す。図1を参照すると、前記従来の注意モジュールは、線形融合モジュール101、正規化処理モジュール102及び重み加算モジュール103を含むことができる。具体的に、まず、入力された条件特徴Q(即ち、デコーダの現在の隠れ状態特徴)及び局所キー表現K(即ち、エンコード後の各画像領域の特徴)という2種類の異なるモダリティからの情報に対して線形融合モジュール101を利用して線形融合することにより、各画像領域に対応する注意の重みを得る。その後、正規化処理モジュールにより注意の重みを処理するとともに、正規化処理後の各注意の重みを局所特徴V(エンコード後の画像領域の特徴)に作用させて、重み加算を行い、最終的に画像レベルの集約特徴を得ることができる。このような注意モデルの作用によって、最終的に出力される画像レベルの集約特徴は、視覚情報(エンコード後の画像領域の特徴)及びテキスト情報(デコーダの隠れ状態特徴)という2つの異なるモダリティの特徴の間でインタラクションした後に形成されたものであることを分かることができる。
【0032】
しかし、従来の注意モジュールは、通常、線形融合によりモダリティ間の特徴の相互学習を行うので、本質的に異なるモダリティ間の一次特徴のインタラクションのみを発掘し、このような複雑なモダリティ間の画像内容の推論タスクにおける注意モジュールの役割を大幅に制限する。
【0033】
本例示的な実施形態において、まず、サーバー、サーバー集合体又はクラウドサーバーなどで実行可能な画像記述生成方法を提供する。勿論、当業者は、必要に応じて他のプラットフォームで本発明の方法を実行することもできるが、本例示的な実施例において、これを特に限定しない。図2を参照すると、前記画像記述生成方法は、以下のステップを含むことができる。
【0034】
ステップS210において、目標画像における画像領域の特徴を取得し、前記画像領域の特徴に対して平均プーリング処理を行うことにより現在の入力ベクトルを得る。
【0035】
ステップS220において、前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得る。
【0036】
ステップS230において、前記画像領域の特徴の外積ベクトルに基づいて、空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布を計算する。
【0037】
ステップS240において、前記画像領域の特徴の前記空間次元における注意分布及びチャンネル次元における注意分布に基づいて、前記目標画像の画像記述を生成する。
【0038】
上記の画像記述生成方法において、画像領域の特徴に対して平均プーリング処理を行うことにより、現在の入力ベクトルを得る。その後、現在の入力ベクトル及び画像領域の特徴を線形融合することにより、画像領域の特徴の外積ベクトルを得る。さらに、画像領域の特徴の外積ベクトルに基づいて、空間次元における画像領域の特徴の注意分布及びチャンネル次元における画像領域の特徴の注意分布を計算する。最後に、画像領域の特徴の空間次元における注意分布及びチャンネル次元における注意分布に基づいて、目標画像の画像記述を生成する。これにより、従来技術において、従来の注意モジュールが通常に線形融合によりモダリティ間の特徴の相互学習を行い、本質的に異なるモダリティ間の一次特徴のインタラクションのみを発掘するので、生成された画像記述の精度が低いという問題を解決し、生成された画像記述の精度を向上させることができる。一方で、前記画像領域の特徴の空間次元における注意分布及びチャンネル次元における注意分布に基づいて目標画像の画像記述を生成することにより、2つの次元における注意分布に基づいて目標画像の画像記述を生成することを実現することができる。
【0039】
以下、図面を併せて本発明の例示的な実施例に係る画像記述生成方法における各ステップを詳しく解釈して説明する。
【0040】
まず、本発明の例示的な実施例の発明目的を解釈して説明する。具体的に、本発明において、主に、どのようにして高次注意モデルを画像記述自動生成タスクに適用するかを検討する。「エンコーダ-デコーダ」に基づく画像記述生成システムにおいて、注意メカニズムは、通常、以下の2箇所で関連される。その1つは、エンコーダにおいて画像内の各領域間に注意メカニズムを導入してエンコードを行うことができ、もう1つは、エンコーダとデコーダとの間で注意メカニズムを利用してモダリティ間の情報のインタラクションを行う。このため、本発明は、この2箇所に設計された高次注意モデルを追加することにより、シングルモダリティ内のエンコード性能及びマルチモーダル間の特徴の相互学習能力をそれぞれ向上させることで、最終的に生成される記述品質を向上させることができる。
【0041】
次に、本発明の例示的な実施例に係る画像記述生成システムを解釈して説明する。
図3を参照すると、前記画像記述生成システムは、オブジェクト検出モジュール310と、エンコーダ320と、デコーダ330とを含むことができる。
【0042】
ここで、オブジェクト検出モジュール310は、目標画像における画像領域の特徴を取得するためのものである。ここで、前記オブジェクト検出モジュール310は、例えばFaster R-CNNであってもよい。
【0043】
エンコーダ320は、ネットワークを介して前記オブジェクト検出モジュール310に接続される。前記エンコーダ320は、複数の高次注意モジュール(高次注意モジュール1、高次注意モジュール2、…、高次注意モジュールM)321を含む。ここで、前記複数の高次注意モジュールは、それぞれ高次線形注意モジュール(X-Linear Attention)と、マッピング層(Embed)と、正規化モジュール(Add & Norm)とを含むことができる。
【0044】
デコーダ330は、ネットワークを介して前記エンコーダ320に接続される。前記デコーダ330は、高次注意メカニズムを備える複数の長・短期記憶ネットワーク(長・短期記憶ネットワーク1、長・短期記憶ネットワーク2、…、長・短期記憶ネットワークM)331を含む。ここで、各前記高次注意メカニズムを備える長・短期記憶ネットワーク331は、高次線形注意モジュール(X-Linear Attention)と、マッピング層(Embed)と、ゲート線形構造(GLU)と、単一線形化モジュール(Linear)と、分類モジュール(Softmax)とを含むことができる。
【0045】
いくつかの実施例において、前記複数の高次注意モジュールは、前記画像領域の特徴に対して平均プーリング処理を行うことにより現在の入力ベクトルを得て、また、前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得て、また、前記画像領域の特徴の外積ベクトルに基づいて、前記画像領域の特徴の空間次元における注意分布及びチャンネル次元における注意分布を計算するために用いられる。
【0046】
前記高次注意メカニズムを備える複数の長・短期記憶ネットワークは、前記画像領域の特徴の空間次元における注意分布及びチャンネル次元における注意分布に基づいて、前記目標画像の画像記述を生成するために用いられる。
【0047】
以下、上記の画像記述生成システムを併せてステップS210~ステップS240を解釈して説明する。
【0048】
ステップS210において、目標画像における画像領域の特徴を取得するとともに、前記画像領域の特徴に対して平均プーリング処理を行うことにより現在の入力ベクトルを得る。
【0049】
本例示的な実施例において、まず、前記対象画像を検出することにより、前記目標画像に含まれているオブジェクト及び前記オブジェクトに対応する画像領域の特徴を得る。その後、前記画像領域の特徴に対して平均プーリング処理を行うことにより現在の入力ベクトルを得る。
【0050】
いくつかの実施例において、図3を参照すると、まず、入力された画像については、ブジェクト検出モジュール310(Faster R-CNN)は、まず、前記画像に含まれているオブジェクトを検出するとともに、各オブジェクトに対応する画像領域の特徴を取得する。その後、(1+M)個重畳した高次注意モジュール321にすべての画像領域の特徴を入力した後、すべての画像領域の特徴に対して平均プーリング処理(mean pooling)を行うことにより、平均プーリングベクトル(現在の入力ベクトルであり、Qで表される。)を得る。
【0051】
ステップS220において、前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得る。
【0052】
本例示的な実施例において、上記の現在の入力ベクトルQが得られた後、高次線形注意モジュール(X-Linear Attention)を利用して前記現在の入力ベクトルQ及び画像領域の特徴(K)を線形融合することにより画像領域の特徴の外積ベクトルを得ることができる。具体的に、前記現在の入力ベクトル及び前記画像領域の特徴を指数マッピング(exponential mapping)するとともに、指数マッピングされた後の現在の入力ベクトル及び画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得ることができる。ここで、前記画像領域の特徴の外積ベクトルは、デコーダの現在の隠れ状態特徴とエンコード後の画像領域の特徴との間の二次特徴のインタラクション情報を含む。なお、ここでの線形融合は、双線形融合であってもよく、多線形融合であってもよいが、本実施例は、これを特に限定しない。
【0053】
なお、前記高次注意モデルは、簡単な積み重ね方式により二次以上のより高いい高次特徴のインタラクション情報に対する発掘を実現することもできる。高次注意モデルに対する積み重ね操作において、各層の高次注意モデルに入力された検索表現は、いずれも前層(上層)の高次注意モデルから出力された画像レベルの集約特徴として設定されるが、その入力された局所キー表現Kと局所特徴V(ここで、KとVは、いずれも上記の画像領域の特徴である。)は、前層にて入力された局所キー表現Kおよび局所特徴Vと出力された画像レベルの集約特徴をスプライシングさせた後にマッピングされた領域の特徴として設定される。連続的な積み重ねが複数のネットワークパラメータをもたらすので、ここでは無限次特徴のインタラクションまで拡張可能な設計をさらに提供する。即ち、先に設計された高次注意モデルに指数線形ユニット(ELU)を追加し、その後、前記指数線形ユニットにより現在の入力ベクトル及び画像領域の特徴を指数マッピングする。
【0054】
いくつかの実施例において、現在の入力ベクトル及び画像領域の特徴を指数マッピングした後、高次注意モデルと一致する双線形融合をさらに行うとともに、空間次元及びチャンネル次元における注意の重みによる集約をさらに行うことにより、最終的に得られた画像レベルの集約特徴は、異なるモダリティ間の無限次特徴のインタラクション情報を含み、さらに、追加のネットワークパラメータを導入することなく、無限次の設計まで拡張させるので、ネットワークパラメータを一定に保つ場合にも、モダリティ間の無限次の相互学習を行うこともできる。
【0055】
ステップS230において、前記画像領域の特徴の外積ベクトルに基づいて、前記画像領域の特徴の空間次元における注意分布及びチャンネル次元における注意分布を計算する。
【0056】
本例示的な実施例において、図4を参照すると、前記画像領域の特徴の外積ベクトルに基づいて、前記画像領域の特徴の空間次元における注意分布及びチャンネル次元における注意分布を計算するステップは、ステップS410及びステップS420を含むことができる。
【0057】
ここで、ステップS410において、前記画像領域の特徴の外積ベクトルをマッピングすることにより、空間次元における前記画像領域の特徴の注意分布を得る。
【0058】
本例示的な実施例において、まず、前記画像領域の特徴の外積ベクトルをマッピングすることにより、前記画像領域の特徴に含まれる各画像領域に対応する注意の重みを得る。次に、前記画像領域の特徴に含まれる各画像領域に対応する注意の重みに対して正規化処理を行うことにより、空間次元における前記画像領域の特徴の注意分布を得る。
【0059】
いくつかの実施例において、画像領域の特徴の外積ベクトルを2つのベクトルマッピング層(Embed)を通過させることにより各画像領域に対応する注意の重みを取得し、その後、さらにSoftmaxを追加的に使用することによりすべての注意の重みに対して正規化処理を行うことで、空間次元における注意分布を得ることができる。
【0060】
ステップS420において、前記画像領域の特徴の外積ベクトルに対して圧縮及び励起処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意分布を得る。
【0061】
本例示的な実施例において、まず、空間次元において前記画像領域の特徴の外積ベクトルを融合することにより、圧縮後のチャンネル表現を得る。次に、前記圧縮後のチャンネル表現に対して励起処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意の重みを得る。最後に、各チャンネル次元における前記画像領域の特徴の注意の重みに対して正規化処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意分布を得る。
【0062】
いくつかの実施例において、チャンネル次元における画像領域の特徴の注意分布を取得するために、1つの圧縮及び励起層(Squeeze-Excitation)により1つのマッピング層(Embed)を経過した外積ベクトル表現に追加的に作用することができる。ここで、具体的な過程は、以下の通りである。まず、すべての画像領域の特徴及びデコーダの隠れ状態特徴がマッピングされた後の外積ベクトルに対して圧縮(Squeeze)操作を行い、即ち、空間次元において圧縮融合を行うことにより、1つの圧縮後のチャンネル表現を取得する。その後、当該圧縮後のチャンネル表現に対して励起(Excitation)操作を再度行うことにより、チャンネル次元における注意分布を得る。さらに、前記チャンネル次元における注意分布は、Sigmoidを経過することにより各チャンネルに対応する注意の重みに対して正規化処理を行うことで、最終的にチャンネル次元における注意の重みを得る。
【0063】
ステップS240において、前記空間次元における注意分布及びチャンネル次元における注意分布に基づいて、前記目標画像の画像記述を生成する。
【0064】
本例示的な実施例において、図5を参照すると、前記空間次元における注意分布及びチャンネル次元における注意分布に基づいて、前記目標画像の画像記述を生成するステップは、ステップS510~ステップS530を含むことができる。
【0065】
ここで、ステップS510において、前記空間次元における注意分布に基づいて前記画像領域の特徴及び前記画像領域の特徴の外積ベクトルを融合することにより、現在の集約特徴を得る。
【0066】
ステップS520において、前記チャンネル次元における注意分布に基づいて前記現在の集約特徴を融合することにより、目標集約特徴を得る。
【0067】
ステップS530において、前記目標集約特徴に基づいて、前記目標画像の画像記述を生成する。
【0068】
以下、ステップS510~ステップS530を解釈して説明する。まず、空間次元及びチャンネル次元における2種類の注意分布を取得した後、すべての画像領域の特徴及びデコーダの隠れ状態特徴がマッピングされた後の外積ベクトルは、いずれも先に空間次元における注意分布に基づいて融合されることにより、現在の集約特徴を得る。その後、現在の集約特徴は、チャンネル次元における注意分布に基づいて融合されて、最終的に出力される画像レベルの集約特徴(目標集約特徴)を得る。
【0069】
本発明は、異なるモダリティ間の二次乃至より高い高次特徴のインタラクションをより深く発掘することによりモダリティ間の内容に対する理解を強化することができるように、全新たな高次注意モデルを構築する。前記高次注意モデルは、具体的に、特徴の空間次元及びチャンネル次元の両方において双線形融合を利用して異なるモダリティ間の二次特徴のインタラクションを学習する。その後、モジュール化された重畳操作によって、より高い高次特徴のインタラクションを深く発掘することができる。また、高次注意モデルに指数線形ユニットを導入することにより、異なるモダリティ間の無限次特徴のインタラクションを探索することができる。最終的に、前記高次注意モデルは、柔軟なプラグインとして近年普及している画像記述自動生成モデルに接続されるので、画像記述生成モデルにおいてエンコーダ及びデコーダのモダリティ内とモダリティ間の特徴のインタラクション能力を大幅に向上させ、前記モダリティ間の生成タスクの精度を高めることができる。
【0070】
以下、図6を併せて本発明の例示的な実施例に係る画像記述生成方法についてさらに解釈して説明する。
【0071】
まず、図6を参照すると、前記画像記述生成方法は、以下のステップを含むことができる。
【0072】
ステップS610において、オブジェクト検出モジュール(Faster R-CNN)を利用して目標画像に含まれるオブジェクトを検出するとともに、各オブジェクトに対応する画像領域の特徴を取得する。
【0073】
ステップS620において、(1+M)個重畳した高次注意モジュールにすべての画像領域の特徴を入力し、空間次元における注意分布及びチャンネル次元における注意分布を得る。ここで、エンコーダにおける初めの高次注意モデルについては、入力された検索表現Qがすべての画像領域の特徴の平均プーリングベクトルであり、局所キー表現K及び局所特徴Vがいずれも画像領域の特徴として設定される。次のM個の高次注意モジュールは、いずれも初めの高次注意モジュールの上に順に積み重ねられる。
【0074】
このため、このような高次注意モジュールの重畳により構成されたエンコーダ作用によって、最終的に出力される画像領域の特徴は、いずれも2つの領域間の高次特徴のインタラクション情報に組み込まれるので、各画像領域に含まれている視覚情報をより良く表現させることができる。同時に、当該(1+M)個の高次注意モジュールも(1+M)個の画像レベルの集約特徴を出力する。これらのエンコード後の画像領域の特徴及び画像レベルの集約特徴は、デコーダに入力されて記述テキストを生成する。
【0075】
ステップS630において、高次注意メカニズムを有する長・短期記憶ネットワーク(LSTM)から構成されるデコーダに空間次元における注意分布及びチャンネル次元における注意分布を入力することによって、目標画像の画像記述を得る。ここで、長・短期記憶ネットワークは、単語と単語との間の文脈関係をモデル化するために用いられる。
【0076】
いくつかの実施例において、デコードする各時点で、長・短期記憶ネットワークへの入力は、現在入力される単語ベクトル、前の時点での長・短期記憶ネットワークの隠れ状態、前の時点で出力される文脈情報ベクトル及び画像レベルの特徴表現(すべてのエンコーダにより出力された画像レベルの集約特徴と平均プーリングベクトルとのスプライシングである。)の4つの情報を組み合わせたものである。長・短期記憶ネットワークが現在の隠れ状態ベクトルを出力した後、現在の隠れ状態ベクトルは、入力される検索表現Qとして1つの高次注意モデルに入力されると同時に、エンコード後の画像領域の特徴も局所キー表現K及び局所特徴Vとして高次注意モデルに入力される。
【0077】
このようにして、デコーダにおける高次注意モデルにより出力された画像レベルの集約特徴は、異なるモダリティ間の高次特徴のインタラクション情報を良く発掘するが、出力された画像レベルの集約特徴は、1つのマッピング層に入力された後、現在の隠れ状態とスプライシングされ、ゲート線形構造(GLU)に入力されることで、現在の時点で出力される文脈情報ベクトルを形成する。前記文脈情報ベクトルは、2つの用途を持ち、その1つは、次の時点での長・短期記憶ネットワークへの入力とし、もう1つは、分類層(Softmax)を通過することにより現在の時点で予測される単語確率分布を得る。このようにして、デコード過程は、最終的に記述テキストのカットオフキャラクターが予測されるまで継続して実行されることができる。
【0078】
このため、このような高次注意モデルを備える画像記述生成システムについて、エンコーダ及びデコーダに挿入された高次注意モデルは、画像の単一モダリティ内の領域の特徴の間の高次情報のインタラクション及び画像と記述テキストの異なるモダリティ間の高次特徴の情報インタラクションをそれぞれ強化することにより、エンコード特徴を向上させるとともにモダリティ間の画像の内容に対する推論能力を高めるので、最終的に生成された記述テキストは画像に含まれる視覚内容をより正確に表現することができる。
【0079】
本発明の例示的な実施例に係る画像記述生成方法は、高次注意モデルを独創的に設計した。また、前記高次注意モデルを画像記述生成過程に先駆的に組み込んで、画像視覚情報からテキスト記述への生成品質を強化した。
【0080】
本発明の例示的な実施例は、画像記述生成装置をさらに提供する。図7を参照すると、前記画像記述生成装置は、第1処理モジュール710、第2処理モジュール720、注意分布計算モジュール730及び画像記述生成モジュール740を含むことができる。
【0081】
ここで、第1処理モジュール710は、目標画像における画像領域の特徴を取得するとともに、前記画像領域の特徴に対して平均プーリング処理を行うことにより現在の入力ベクトルを得るために用いられることができる。
【0082】
第2処理モジュール720は、前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得るために用いられることができる。
【0083】
注意分布計算モジュール730は、前記画像領域の特徴の外積ベクトルに基づいて、前記画像領域の特徴の空間次元における注意分布及びチャンネル次元における注意分布を計算するために用いられることができる。
【0084】
画像記述生成モジュール740は、前記画像領域の特徴の前記空間次元における注意分布及びチャンネル次元における注意分布に基づいて、前記目標画像の画像記述を生成するために用いられることができる。
【0085】
本発明の一つの例示的な実施例において、目標画像における画像領域の特徴を取得するステップは、
前記対象画像を検出することにより、前記目標画像に含まれるオブジェクト及び前記オブジェクトに対応する画像領域の特徴を得るステップを含む。
【0086】
本発明の一つの例示的な実施例において、前記画像領域の特徴の外積ベクトルに基づいて、前記画像領域の特徴の空間次元における注意分布及びチャンネル次元における注意分布を計算するステップは、
前記画像領域の特徴の外積ベクトルをマッピングすることにより、空間次元における前記画像領域の特徴の注意分布を得るステップと、
前記画像領域の特徴の外積ベクトルに対して圧縮及び励起処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意分布を得るステップと、を含む。
【0087】
本発明の一つの例示的な実施例において、前記画像領域の特徴の外積ベクトルをマッピングすることにより、空間次元における前記画像領域の特徴の注意分布を得るステップは、
前記画像領域の特徴の外積ベクトルをマッピングすることにより、前記画像領域の特徴に含まれる各画像領域に対応する注意の重みを得るステップと、
前記画像領域の特徴に含まれる各画像領域に対応する注意の重みに対して正規化処理を行うことにより、空間次元における前記画像領域の特徴の注意分布を得るステップと、を含む。
【0088】
本発明の一つの例示的な実施例において、前記画像領域の特徴の外積ベクトルに対して圧縮及び励起処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意分布を得るステップは、
空間次元において前記画像領域の特徴の外積ベクトルを融合することにより、圧縮後のチャンネル表現を得るステップと、
前記圧縮後のチャンネル表現に対して励起処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意の重みを得るステップと、
各チャンネル次元における前記画像領域の特徴の注意の重みに対して正規化処理を行うことにより、チャンネル次元における前記画像領域の特徴の注意分布を得るステップと、を含む。
【0089】
本発明の一つの例示的な実施例において、前記空間次元における前記画像領域の特徴の注意分布及びチャンネル次元における前記画像領域の特徴の注意分布に基づいて、前記目標画像の画像記述を生成するステップは、
空間次元における前記画像領域の特徴の注意分布に基づいて前記画像領域の特徴及び前記画像領域の特徴の外積ベクトルを融合することにより、現在の集約特徴を得るステップと、
チャンネル次元における前記画像領域の特徴の注意分布に基づいて前記現在の集約特徴を融合することにより、目標集約特徴を得るステップと、
前記目標集約特徴に基づいて、前記目標画像の画像記述を生成するステップと、を含む。
【0090】
本発明の一つの例示的な実施例において、前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得るステップは、
前記現在の入力ベクトル及び前記画像領域の特徴を指数マッピング処理を行うとともに、指数マッピング処理後の現在の入力ベクトル及び画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得るステップを含む。
【0091】
本発明の一つの例示的な実施例において、前記画像領域の特徴の外積ベクトルは、デコーダの現在の隠れ状態特徴とエンコード後の画像領域の特徴との間の二次特徴のインタラクション情報を含む。
【0092】
上記の画像記述生成装置における各モジュールの具体的な細部は、既に対応する画像記述生成方法において詳細に説明したので、ここでは、その詳細な説明を省略する。
【0093】
なお、以上の詳細な説明では、動作実行のための機器のいくつかのモジュール又はユニットを説明したが、このような区分は、強制的なものではない。実際には、本発明の実施例によれば、上述した2つ以上のモジュール又はユニットの特徴及び機能は、1つのモジュール又はユニットで具体化されてもよい。逆に、上述した1つのモジュール又はユニットの特徴及び機能は、複数のモジュール又はユニットによりさらに具体化されてもよい。
【0094】
なお、図面において特定的な順序で本発明における方法の各ステップを説明したが、上記の特定的な順序でこれらのステップを実行しなければならないこと、又は、期待の結果を実現するために図示された全てのステップを実行しなければならないことを要求又は暗示することではない。それ以外にも、あるステップを省略したり、複数のステップを組み合わせて1つのステップにして実行したり、及び/又は、1つのステップを複数のステップに分解して実行したりなどしてもよい。
【0095】
本発明の例示的な実施例において、上記の方法を実現できる電子機器をさらに提供する。
【0096】
当業者は、本発明の各態様がシステム、方法又はプログラム製品として実現できることを理解すべきである。したがって、本発明の各態様は、以下の形式で実現できる。即ち、完全なハードウェアの実施形態、完全なソフトウェアの実施形態(ファームウェア、マイクロコード等を含む。)、又は、ハードウェアとソフトウェアを結合する実施形態である。ここで、「回路」、「モジュール」又は「システム」と総称することができる。
【0097】
以下、図8を参照して本発明のこのような実施形態の電子機器800を説明する。図8に示される電子機器800は、単なる一例に過ぎず、本発明の実施例の機能及び使用範囲を限定するものではない。
【0098】
図8に示すように、電子機器800は、汎用な計算機器の形式で表現される。電子機器800のコンポーネントは、少なくとも1つの処理ユニット810、少なくとも1つの記憶ユニット820、異なるシステムコンポーネント(記憶ユニット820及び処理ユニット810を含む。)に接続するバス830、表示ユニット840を含んでもよいが、これらに限定されない。
【0099】
ここで、前記記憶ユニット820には、プログラムコードが記憶され、前記プログラムコードは、前記処理ユニット810により実行されてもよく、これにより、前記処理ユニット810は、本明細書の上記の「例示的な方法」の部分に説明した本発明の様々な例示的な実施形態のステップを実行する。例えば、前記処理ユニット810は、図2に示すような、目標画像における画像領域の特徴を取得し、前記画像領域の特徴に対して平均プーリング処理を行うことにより現在の入力ベクトルを得るステップS210と、前記現在の入力ベクトル及び前記画像領域の特徴を線形融合することにより、前記画像領域の特徴の外積ベクトルを得るステップS220と、前記画像領域の特徴の外積ベクトルに基づいて前記画像領域の特徴の空間次元での注意分布及びチャンネル次元での注意分布を計算するステップS230と、前記空間次元での注意分布及びチャンネル次元での注意分布に基づいて前記目標画像の画像記述を生成するステップS240と、を実行することができる。
【0100】
記憶ユニット820は、例えば、ランダムアクセス記憶ユニット(RAM)8201及び/又は高速キャッシュ記憶ユニット8202などの揮発性記憶ユニットの形態の読み取り可能な媒体を含んでもよく、読み取り専用の記憶ユニット(ROM)8203をさらに含んでもよい。
【0101】
記憶ユニット820は、一つのセット(少なくとも1つ)のプログラムモジュール8205を備えるプログラム/ユーティリティツール8204をさらに含んでもよく、このようなプログラムモジュール8205は、操作システム、1つ又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含むが、これらに限定されなく、これらの例における各々又はその特定の組み合わせは、ネットワーク環境の実現を含んでもよい。
【0102】
バス830は、いくつかの種類のバス構造のうちの1種又は複数種であってもよく、記憶ユニットバス又は記憶ユニットコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、処理ユニット又は複数種のバス構造のうちの任意のバス構造を使用するローカルバスを含む。
【0103】
電子機器800は、1つ又は複数の外部機器900(例えば、キーボード、指向機器、ブルートゥース(登録商標)機器等)と通信してもよく、ユーザと当該電子機器800とのインタラクションを可能にする1つ又は複数の機器と通信してもよく、及び/又は、当該電子機器800が1つ又は複数の他の計算機器と通信することを可能にする任意の機器(例えば、ルータ、モデム等)と通信してもよい。このような通信は、入力/出力(I/O)インターフェース850を介して行ってもよい。そして、電子機器800は、ネットワークアダプタ860を介して1つ又は複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)及び/又は共通のネットワーク、例えば、インターネット)と通信してもよい。図に示すように、ネットワークアダプタ860は、バス830を介して電子機器800の他のモジュールと通信する。なお、図には示されないが、他のハードウェア及び/又はソフトウェアモジュールを電子機器800と共に使用してもよく、上記の他のハードウェア及び/又はソフトウェアモジュールは、マイクロコード、機器ドライバ、冗長処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライバ及びデータバックアップ記憶システム等を含むが、これらに限定されない。
【0104】
以上の実施形態の説明によって、当業者は、本明細書に記載される例示的な実施形態がソフトウェアにより実現されてもよいこと、ソフトウェアと必要なハードウェアを結合することにより実現されてもよいことを容易に理解することができる。したがって、本発明の実施形態に係る技術案は、ソフトウェア製品の形態で体現されてもよく、当該ソフトウェア製品は、1つの不揮発性記録媒体(CD-ROM、USBデバイス、モバイルハードディスク等であってもよい。)またはネットワークに記憶されてもよく、本発明の実施形態に係る方法を計算機器(パーソナルコンピュータ、サーバー、端末装置又はネットワーク機器等であってもよい。)に実行させるいくつかの指令を含む。
【0105】
本発明の例示的な実施例において、本明細書における上記の方法を実現できるプログラム製品が記憶されるコンピュータ読み取り可能な記憶媒体をさらに提供する。いくつかの可能な実施形態では、本発明の各態様は、プログラムコードを含むプログラム製品の形態で実現されてもよく、前記プログラム製品が端末機器で実行される場合、前記プログラムコードは、本明細書の上記の「例示的な方法」の部分に説明した本発明の様々な例示的な実施形態のステップを前記端末機器に実行させる。
【0106】
本発明の実施形態による上記の方法を実現するためのプログラム製品は、コンパクトディスク読み取り専用メモリ(CD-ROM)を使用し、プログラムコードを含み、端末機器、例えばパーソナルコンピュータで実行されることができる。しかしながら、本発明のプログラム製品は、これに限定されない。本願において、読み取り可能な記憶媒体は、プログラムを含む又は記憶する任意の有形媒体であってもよく、当該プログラムは、指令実行システム、装置又は部品により使用されてもよく、又は、それらに結合して使用されてもよい。
【0107】
前記プログラム製品は、1つ又は複数の読み取り可能な媒体の任意の組み合わせを使用してもよい。読み取り可能な媒体は、読み取り可能な信号媒体又は読み取り可能な記憶媒体であってもよい。読み取り可能な記憶媒体は、例えば、電子、磁気、光、電磁、赤外線、又は半導体のシステム、装置又は部品、又は、上記の任意の組み合わせであってもよいが、これらに限定されない。読み取り可能な記憶媒体のより具体的な例(非網羅的リスト)は、1つ又は複数の導線を有する電気的接続、可搬型ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去/プログラムが可能な読み取り専用のメモリ(EPROM又はフラッシュ)、光ファイバー、コンパクトディスク読み取り専用のメモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は、これらの任意の組み合わせを含む。
【0108】
コンピュータ読み取り可能な信号媒体は、ベースバンドに含まれ又は搬送波の一部として伝播されるデータ信号を含んでもよく、その中で読み取り可能なプログラムコードを担持する。このような伝播されるデータ信号は、多くの形式を採用してもよく、電磁信号、光信号又は上記の任意の組み合わせを含むが、これらに限定されない。読み取り可能な信号媒体は、読み取り可能な記憶媒体以外の任意の読み取り可能な媒体であってもよく、当該読み取り可能な媒体は、指令実行システム、装置又は部品により使用され又はそれらと組み合わせて使用されるためのプログラムを送信、伝播又は転送することができる。
【0109】
読み取り可能な媒体に含まれるプログラムコードは、任意の適切な媒体により転送されてもよく、無線、有線、光ケーブル、RF等、又は、上記の任意の適切な組み合わせを含むが、これらに限定されない。
【0110】
本発明の動作を実行するためのプログラムコードは、1種又は複数種のプログラム言語の任意の組み合わせで書かれてもよく、前記プログラム言語は、Java(登録商標)、C++などのオブジェクト指向プログラム言語を含んでもよく、「C」言語又は類似のプログラム言語などの通常の手続型プログラム言語を含んでもよい。プログラムコードは、完全にユーザ計算機器で実行されてもよく、一部がユーザ計算機器で実行されてもよく、1つの独立のソフトウェアパッケージとして実行されてもよく、一部がユーザ計算機器で実行されてもよく、一部が遠隔計算機器で実行されてもよく、又は、完全に遠隔計算機器又はサーバーで実行されてもよい。遠隔計算機器に係る場合、遠隔計算機器は、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザの計算機器に接続されてもよく、又は、外部計算機器(例えば、インターネットサービスプロバイダによりインターネットを介して接続され)に接続されてもよい。
【0111】
なお、上記の図面は、本発明の例示的な実施例の方法に含まれるプロセスの例示的な説明のみであり、限定することを意図するものではない。上記の図に示されたプロセスはこれらのプロセスの時間的な順序を明確に示したり、限定したりするものではないことを容易に理解されるであろう。また、これらのプロセスは、例えば複数のモジュールにおいて同期的又は非同期的に実行されてもよいことも容易に理解されるであろう。
【0112】
当業者は、本明細書を考慮し、本明細書に開示された発明を実施した後、本発明の他の実施例を容易に想到できる。本願は、本発明の任意の変形、用途又は適応性の変更を含み、これらの変形、用途又は適応性の変更は、本発明の一般的な原理に従うと共に、本発明に開示されない当技術分野における公知な常識又は慣用の技術手段を含む。明細書及び実施例は、例示的なものに過ぎず、本発明の真の範囲及び精神は、特許請求の範囲において指摘されている。
図1
図2
図3
図4
図5
図6
図7
図8