特表2022-546811 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京金山数字▲娯▼▲楽▼科技有限公司の特許一覧

特表2022-546811画像キャプションの方法、装置、計算機器及び記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-11-09

(54)【発明の名称】画像キャプションの方法、装置、計算機器及び記憶媒体

(51)【国際特許分類】

G06V 10/82 20220101AFI20221101BHJP

G06T 7/00 20170101ALI20221101BHJP

【ＦＩ】

G06V10/82

G06T7/00 350C

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2022513610

(86)(22)【出願日】2020-08-27

(85)【翻訳文提出日】2022-03-09

(86)【国際出願番号】 CN2020111602

(87)【国際公開番号】W WO2021037113

(87)【国際公開日】2021-03-04

(31)【優先権主張番号】201910797332.X

(32)【優先日】2019-08-27

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ブルートゥース

(71)【出願人】

【識別番号】522075313

【氏名又は名称】北京金山数字▲娯▼▲楽▼科技有限公司

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＫｉｎｇｓｏｆｔＤｉｇｉｔａｌＥｎｔｅｒｔａｉｎｍｅｎｔＣＯ．，ＬＴＤ．

【住所又は居所原語表記】Ｎｏ．００２，１１ｔｈＦｌｏｏｒ，Ｂｕｉｌｄｉｎｇ５，Ｎｏ．３３ＸｉｅｒｑｉＭｉｄｄｌｅＲｏａｄ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，ＣＨＩＮＡ

(74)【代理人】

【識別番号】110002860

【氏名又は名称】弁理士法人秀和特許事務所

(72)【発明者】

【氏名】宋振旗

(72)【発明者】

【氏名】李長亮

(72)【発明者】

【氏名】廖敏鵬

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096HA11

5L096JA11

5L096KA04

5L096KA15

(57)【要約】

本願は画像キャプションの方法、装置、計算機器及び記憶媒体を提供する。前記方法は、複数の第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、各第１特徴抽出モデルに生成された画像特徴を取得することと、複数の第１特徴抽出モデルに生成された画像特徴に対して融合処理を行って、ターゲット画像に対応する大域画像特徴を生成することと、第２特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、ターゲット画像に対応するターゲット検出特徴を取得することと、ターゲット画像に対応する大域画像特徴とターゲット検出特徴とを翻訳モデルに入力して、生成された翻訳文をターゲット画像のキャプション文とすることとを含む。これにより、後続するターゲット画像に対応する大域画像特徴とターゲット検出特徴とを翻訳モデルに入力して翻訳文を生成するプロセスでは、より豊富な画像情報を含む大域画像特徴を参照とし、出力した翻訳文をより正確にすることができる。

【特許請求の範囲】

【請求項1】

複数の第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、各前記第１特徴抽出モデルに生成された画像特徴を取得することと、
前記複数の第１特徴抽出モデルに生成された画像特徴に対して融合処理を行って、前記ターゲット画像に対応する大域画像特徴を生成することと、
第２特徴抽出モデルを用いて前記ターゲット画像に対して特徴抽出を行って、前記ターゲット画像に対応するターゲット検出特徴を取得することと、
前記ターゲット画像に対応する前記大域画像特徴と前記ターゲット検出特徴とを翻訳モデルに入力して、生成された翻訳文を前記ターゲット画像のキャプション文とすることとを含む、画像キャプションの方法。

【請求項2】

前記複数の第１特徴抽出モデルに生成された画像特徴に対して融合処理を行って、前記ターゲット画像に対応する大域画像特徴を生成することは、
前記複数の第１特徴抽出モデルに生成された画像特徴のそれぞれに対して、対応する第１自己注意層によって特徴抽出を行って、複数の中間特徴を取得することと、
前記複数の中間特徴をスティッチングして、初期大域特徴を生成することと、
少なくとも１つの第２自己注意層によって前記初期大域特徴に対して融合処理を行って、大域画像特徴を生成することとを含む、請求項１に記載の方法。

【請求項3】

前記翻訳モデルは、エンコーダとデコーダとを含み、
前記ターゲット画像に対応する前記大域画像特徴と前記ターゲット検出特徴とを翻訳モデルに入力して、生成された翻訳文を前記ターゲット画像のキャプション文とすることは、
前記ターゲット検出特徴と前記大域画像特徴とを前記翻訳モデルのエンコーダに入力して、前記エンコーダの出力の符号化ベクトルを生成することと、
前記符号化ベクトルと前記大域画像特徴とをデコーダに入力して、前記デコーダの出力の復号化ベクトルを生成することと、
前記デコーダの出力の復号化ベクトルに基づいて対応する翻訳文を生成し、前記翻訳文を前記ターゲット画像のキャプション文とすることとを含む、請求項１または２に記載の方法。

【請求項4】

前記エンコーダはＮ個の順次接続された符号化層を含み、Ｎは１より大きい整数であり、
前記ターゲット検出特徴と前記大域画像特徴とを前記翻訳モデルのエンコーダに入力して、前記エンコーダの出力の符号化ベクトルを生成することは、
Ｓ１１：前記ターゲット検出特徴と前記大域画像特徴とを１番目の符号化層に入力して、１番目の符号化層の出力ベクトルを取得することと、
Ｓ１２：ｉ－１番目の符号化層の出力ベクトルと前記大域画像特徴とをｉ番目の符号化層に入力して、ｉ番目の符号化層の出力ベクトルを取得し、２≦ｉ≦Ｎであることと、
Ｓ１３：ｉがＮに等しいかどうかを判断し、等しくない場合はｉを１だけインクリメントしてステップＳ１２を実行し、等しい場合はステップＳ１４を実行することと、
Ｓ１４：Ｎ番目の符号化層の出力ベクトルを前記エンコーダの出力の符号化ベクトルとすることとを含む、請求項３に記載の方法。

【請求項5】

前記符号化層は、第１符号化自己注意層と、第２符号化自己注意層と、第１フィードフォワード層とを含み、
前記ターゲット検出特徴と前記大域画像特徴とを１番目の符号化層に入力して、１番目の符号化層の出力ベクトルを取得することは、
前記ターゲット検出特徴を第１符号化自己注意層に入力して、第１中間ベクトルを取得
することと、
前記第１中間ベクトルと前記大域画像特徴とを前記第２符号化自己注意層に入力して、第２中間ベクトルを取得することと、
前記第２中間ベクトルを前記第１フィードフォワード層により処理して、１番目の符号化層の出力ベクトルを取得することとを含む、請求項４に記載の方法。

【請求項6】

前記符号化層は、第１符号化自己注意層と、第２符号化自己注意層と、第１フィードフォワード層とを含み、
ｉ－１番目の符号化層の出力ベクトルと前記大域画像特徴とをｉ番目の符号化層に入力して、ｉ番目の符号化層の出力ベクトルを取得することは、
前記ｉ－１番目の符号化層の出力ベクトルを第１符号化自己注意層に入力して、第３中間ベクトルを取得することと、
前記第３中間ベクトルと前記大域画像特徴とを第２符号化自己注意層に入力して、第４中間ベクトルを取得することと、
前記第４中間ベクトルを第１フィードフォワード層により処理して、ｉ番目の符号化層の出力ベクトルを取得することとを含む、請求項４または５に記載の方法。

【請求項7】

前記デコーダはＭ個の順次接続された復号化層を含み、Ｍは１より大きい整数であり、
前記符号化ベクトルと前記大域画像特徴とをデコーダに入力して、前記デコーダの出力の復号化ベクトルを生成することは、
Ｓ２１：参照復号化ベクトルと、前記符号化ベクトルと、前記大域画像特徴とを１番目の復号化層に入力して、１番目の復号化層の出力ベクトルを取得することと、
Ｓ２２：ｊ－１番目の復号化層の出力ベクトルと、前記符号化ベクトルと、前記大域画像特徴とをｊ番目の復号化層に入力して、ｊ番目の復号化層の出力ベクトルを取得し、２≦ｊ≦Ｍであることと、
Ｓ２３：ｊがＭに等しいかどうかを判断し、等しくない場合はｊを１だけインクリメントしてステップＳ２２を実行し、等しい場合はステップＳ２４を実行することと、
Ｓ２４：Ｍ番目の復号化層の出力ベクトルを前記デコーダの出力の復号化ベクトルとすることとを含む、請求項３～６のいずれか１項に記載の方法。

【請求項8】

前記復号化層は、第１復号化自己注意層と、第２復号化自己注意層と、第３復号化自己注意層と、第２フィードフォワード層とを含み、
参照復号化ベクトルと、前記符号化ベクトルと、前記大域画像特徴とを１番目の復号化層に入力して、１番目の復号化層の出力ベクトルを取得することは、
前記参照復号化ベクトルを前記第１復号化自己注意層により処理して、第５中間ベクトルを取得することと、
前記第５中間ベクトルと前記大域画像特徴とを前記第２復号化自己注意層により処理して、第６中間ベクトルを取得することと、
前記第６中間ベクトルと前記符号化ベクトルとを前記第３復号化自己注意層により処理して、第７中間ベクトルを取得することと、
前記第７中間ベクトルを第２フィードフォワード層により処理して、１番目の復号化層の出力ベクトルを取得することとを含む、請求項７に記載の方法。

【請求項9】

前記復号化層は、第１復号化自己注意層と、第２復号化自己注意層と、第３復号化自己注意層と、第２フィードフォワード層とを含み、
ｊ－１番目の復号化層の出力ベクトルと、符号化ベクトルと、大域画像特徴とをｊ番目の復号化層に入力して、ｊ番目の復号化層の出力ベクトルを取得することは、
ｊ－１番目の復号化層の出力ベクトルを前記第１復号化自己注意層により処理して、第８中間ベクトルを取得することと、
前記第８中間ベクトルと前記大域画像特徴とを前記第２復号化自己注意層により処理し
て、第９中間ベクトルを取得することと、
前記第９中間ベクトルと前記符号化ベクトルとを前記第３復号化自己注意層により処理して、第１０中間ベクトルを取得することと、
前記第１０中間ベクトルを前記第２フィードフォワード層により処理して、ｊ番目の復号化層の出力ベクトルを取得することとを含む、請求項７または８に記載の方法。

【請求項10】

複数の第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、各前記第１特徴抽出モデルに生成された画像特徴を取得するように構成されている、特徴抽出モジュールと、
前記複数の第１特徴抽出モデルに生成された画像特徴に対して融合処理を行って、前記ターゲット画像に対応する大域画像特徴を生成するように構成されている、大域画像特徴抽出モジュールと、
第２特徴抽出モデルを用いて前記ターゲット画像に対して特徴抽出を行って、前記ターゲット画像に対応するターゲット検出特徴を取得するように構成されている、ターゲット検出特徴抽出モジュールと、
前記ターゲット画像に対応する前記大域画像特徴と前記ターゲット検出特徴とを翻訳モデルに入力して、生成された翻訳文を前記ターゲット画像のキャプション文とするように構成されている、翻訳モジュールとを含む、画像キャプションの装置。

【請求項11】

前記大域画像特徴抽出モジュールは、
前記複数の第１特徴抽出モデルに生成された画像特徴のそれぞれに対して対応する第１自己注意層によって特徴抽出を行って、複数の中間特徴を取得し、
複数の中間特徴をスティッチングして、初期大域特徴を生成し、
少なくとも１つの第２自己注意層によって初期大域特徴に対して融合処理を行って、大域画像特徴を生成するように構成されている、請求項１０に記載の装置。

【請求項12】

前記翻訳モデルは、エンコーダとデコーダとを含み、
前記翻訳モジュールは、
前記ターゲット検出特徴と大域画像特徴とを前記翻訳モデルのエンコーダに入力して、前記エンコーダの出力の符号化ベクトルを生成するように構成されている、符号化モジュールと、
前記符号化ベクトルと前記大域画像特徴とをデコーダに入力して、前記デコーダの出力の復号化ベクトルを生成するように構成されている、復号化モジュールと、
前記デコーダの出力の復号化ベクトルに基づいて対応する翻訳文を生成し、前記翻訳文を前記ターゲット画像のキャプション文とするように構成されている、文生成モジュールとを含む、請求項１０または１１に記載の装置。

【請求項13】

前記エンコーダはＮ個の順次接続された符号化層を含み、Ｎは１より大きい整数であり、
前記符号化モジュールは、
前記ターゲット検出特徴と大域画像特徴とを１番目の符号化層に入力して、１番目の符号化層の出力ベクトルを取得するように構成されている、第１処理手段と
ｉ－１番目の符号化層の出力ベクトルと大域画像特徴とをｉ番目の符号化層に入力して、ｉ番目の符号化層の出力ベクトルを取得するように構成されており、２≦ｉ≦Ｎである、第２処理手段と、
ｉがＮに等しいかどうかを判断し、等しくない場合はｉを１だけインクリメントして第２処理手段を実行し、等しい場合は符号化ベクトル生成手段を実行するように構成されている、第１判断手段と、
Ｎ番目の符号化層の出力ベクトルをエンコーダの出力の符号化ベクトルとするように構成されている、符号化ベクトル生成手段とを含む、請求項１２に記載の装置。

【請求項14】

前記符号化層は、第１符号化自己注意層と、第２符号化自己注意層と、第１フィードフォワード層とを含み、
前記第１処理手段は、前記ターゲット検出特徴を第１符号化自己注意層に入力して、第１中間ベクトルを取得し、第１中間ベクトルと大域画像特徴とを第２符号化自己注意層に入力して、第２中間ベクトルを取得し、前記第２中間ベクトルを第１フィードフォワード層により処理して、１番目の符号化層の出力ベクトルを取得するように構成されている、請求項１３に記載の装置。

【請求項15】

前記符号化層は、第１符号化自己注意層と、第２符号化自己注意層と、第１フィードフォワード層とを含み、
第２処理手段は、前記ｉ－１番目の符号化層の出力ベクトルを第１符号化自己注意層に入力して、第３中間ベクトルを取得し、第３中間ベクトルと大域画像特徴とを第２符号化自己注意層に入力して、第４中間ベクトルを取得し、前記第４中間ベクトルを第１フィードフォワード層により処理して、ｉ番目の符号化層の出力ベクトルを取得するように構成されている、請求項１３または１４に記載の装置。

【請求項16】

前記デコーダはＭ個の順次接続された復号化層を含み、Ｍは１より大きい整数であり、
前記復号化モジュールは、
参照復号化ベクトルと、符号化ベクトルと、大域画像特徴とを１番目の復号化層に入力して、１番目の復号化層の出力ベクトルを取得するように構成されている第３処理手段と、
ｊ－１番目の復号化層の出力ベクトルと、符号化ベクトルと、大域画像特徴とをｊ番目の復号化層に入力して、ｊ番目の復号化層の出力ベクトルを取得するように構成されており、２≦ｊ≦Ｍである、第４処理手段と、
ｊがＭに等しいかどうかを判断し、等しくない場合はｊを１だけインクリメントして第４処理手段を実行し、等しい場合は復号化ベクトル生成手段を実行するように構成されている、第２判断手段と、
Ｍ番目の復号化層の出力ベクトルをデコーダの出力の復号化ベクトルとするように構成されている、復号化ベクトル生成手段とを含む、請求項１２～１５のいずれかに記載の装置。

【請求項17】

前記復号化層は、第１復号化自己注意層と、第２復号化自己注意層と、第３復号化自己注意層と第２フィードフォワード層とを含み、
第３処理手段は、参照復号化ベクトルを第１復号化自己注意層により処理して、第５中間ベクトルを取得し、第５中間ベクトルと前記大域画像特徴とを前記第２復号化自己注意層により処理して、第６中間ベクトルを取得し、第６中間ベクトルと前記符号化ベクトルとを前記第３復号化自己注意層により処理して、第７中間ベクトルを取得し、第７中間ベクトルを第２フィードフォワード層により処理して、１番目の復号化層の出力ベクトルを取得するように構成されている、請求項１６に記載の装置。

【請求項18】

前記復号化層は、第１復号化自己注意層と、第２復号化自己注意層と、第３復号化自己注意層と第２フィードフォワード層とを含み、
第４処理手段は、ｊ－１番目の復号化層の出力ベクトルを前記第１復号化自己注意層により処理して、第８中間ベクトルを取得し、第８中間ベクトルと前記大域画像特徴とを前記第２復号化自己注意層により処理して、第９中間ベクトルを取得し、第９中間ベクトルと前記符号化ベクトルとを前記第３復号化自己注意層により処理して、第１０中間ベクトルを取得し、第１０中間ベクトルを第２フィードフォワード層により処理して、ｊ番目の復号化層の出力ベクトルを取得するように構成されている、請求項１６または１７に記載の装置。

【請求項19】

メモリと、プロセッサと、メモリに格納されているプロセッサが実行可能なコンピュータコマンドとを含み、前記プロセッサは当該コマンドを実行すると請求項１～９のいずれか１項に記載の方法を実現する、計算機器を提供する。

【請求項20】

コンピュータコマンドが記憶されているコンピューター読み取り可能な記憶媒体であって、当該コマンドがプロセッサによって実行されると請求項１～９のいずれか１項に記載の方法を実現する、コンピューター読み取り可能な記憶媒体。

【発明の詳細な説明】

【関連出願の相互参照】

【0001】

本願は、２０１９年０８月２７日に中国国家知的財産権局に提出された、出願番号が２０１９１０７９７３３２．Ｘであり、発明名称が「画像キャプションの方法、装置、計算機器及び記憶媒体」である中国特許出願に基づき優先権を主張し、その全体が参照により本願に組み込まれる。

【技術分野】

【0002】

本願は画像処理技術分野、特に画像キャプションの方法、装置、計算機器及び記憶媒体に関する。

【背景技術】

【0003】

「画像キャプション」とは、画像に基づいて説明する文を自動的に生成することを意味し、「お話づくり」に類似する。画像キャプションは、人間にとって簡単で自然なものであるが、機械にとっては非常に挑戦的なものになる。何故なら、機械は画像中の物体を検出可能だけではなく、さらに物体間の相互関係を理解して、適切な表現で表す必要がある。

【0004】

従来技術において、画像キャプションのプロセスでは、ターゲット画像から局所情報と大域情報とが機械により抽出され、大域情報と局所情報とが翻訳モデルに入力され、翻訳モデルが出力した文を画像に対応するキャプション情報とする必要がある。従来の画像キャプションタスクでは、通常、単一の特徴抽出モデルを使ってターゲット画像に対して大域情報を抽出する。この場合、特徴抽出モデルが大域情報を抽出することは、当該特徴抽出モデル自身の性能に依存する。一部の特徴抽出モデルは画像中のある一種の情報に注目し、一部の特徴抽出モデルは画像中の他の種の情報に注目する。これにより、後続するプロセスでは、翻訳モデルは画像に対応する完全な大域情報を参照とすることができなくなって、出力した文に誤りがあることになることが多い。

【発明の概要】

【0005】

このような事情に鑑み、従来技術の技術的欠陥を解決するために、本願の実施例は画像キャプションの方法、装置、計算機器及び記憶媒体を提供する。

【0006】

第１形態として、本願の実施例は、
複数の第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、各前記第１特徴抽出モデルに生成された画像特徴を取得することと、
前記複数の第１特徴抽出モデルに生成された画像特徴に対して融合処理を行って、前記ターゲット画像に対応する大域画像特徴を生成することと、
第２特徴抽出モデルを用いて前記ターゲット画像に対して特徴抽出を行って、前記ターゲット画像に対応するターゲット検出特徴を取得することと、
前記ターゲット画像に対応する前記大域画像特徴と前記ターゲット検出特徴とを翻訳モデルに入力して、生成された翻訳文を前記ターゲット画像のキャプション文とすることとを含む、画像キャプションの方法を提供する。

【0007】

好ましくは、前記複数の第１特徴抽出モデルに生成された画像特徴に対して融合処理を行って、前記ターゲット画像に対応する大域画像特徴を生成することは、
前記複数の第１特徴抽出モデルに生成された画像特徴のそれぞれに対して対応する第１自己注意層によって特徴抽出を行って、複数の中間特徴を取得することと、
複数の前記中間特徴をスティッチングして、初期大域特徴を生成することと、
少なくとも１つの第２自己注意層によって前記初期大域特徴に対して融合処理を行って、大域画像特徴を生成することとを含む。

【0008】

好ましくは、前記翻訳モデルは、エンコーダとデコーダとを含み、
前記ターゲット画像に対応する前記大域画像特徴と前記ターゲット検出特徴とを翻訳モデルに入力して、生成された翻訳文を前記ターゲット画像のキャプション文とすることは、
前記ターゲット検出特徴と前記大域画像特徴とを前記翻訳モデルのエンコーダに入力して、前記エンコーダの出力の符号化ベクトルを生成することと、
前記符号化ベクトルと前記大域画像特徴とをデコーダに入力して、前記デコーダの出力の復号化ベクトルを生成することと、
前記デコーダの出力の復号化ベクトルに基づいて対応する翻訳文を生成し、前記翻訳文を前記ターゲット画像のキャプション文とすることとを含む。

【0009】

好ましくは、エンコーダはＮ個の順次接続された符号化層を含み、Ｎは１より大きい整数であり、
前記ターゲット検出特徴と前記大域画像特徴とを前記翻訳モデルのエンコーダに入力して、前記エンコーダの出力の符号化ベクトルを生成することは、
Ｓ１１：前記ターゲット検出特徴と前記大域画像特徴とを１番目の符号化層に入力して、１番目の符号化層の出力ベクトルを取得することと、
Ｓ１２：ｉ－１番目の符号化層の出力ベクトルと前記大域画像特徴とをｉ番目の符号化層に入力して、ｉ番目の符号化層の出力ベクトルを取得し、２≦ｉ≦Ｎであることと、
Ｓ１３：ｉがＮに等しいかどうかを判断し、等しくない場合はｉを１だけインクリメントしてステップＳ１２を実行し、等しい場合はステップＳ１４を実行することと、
Ｓ１４：Ｎ番目の符号化層の出力ベクトルを前記エンコーダの出力の符号化ベクトルとすることとを含む。

【0010】

好ましくは、前記符号化層は、第１符号化自己注意層と、第２符号化自己注意層と、第１フィードフォワード層とを含み、
前記ターゲット検出特徴と前記大域画像特徴とを１番目の符号化層に入力して、１番目の符号化層の出力ベクトルを取得することは、
前記ターゲット検出特徴を第１符号化自己注意層に入力して、第１中間ベクトルを取得することと、
前記第１中間ベクトルと前記大域画像特徴とを前記第２符号化自己注意層に入力して、第２中間ベクトルを取得することと、
前記第２中間ベクトルを前記第１フィードフォワード層により処理して、１番目の符号化層の出力ベクトルを取得することとを含む。

【0011】

好ましくは、前記符号化層は、第１符号化自己注意層と、第２符号化自己注意層と、第１フィードフォワード層とを含み、
ｉ－１番目の符号化層の出力ベクトルと前記大域画像特徴とをｉ番目の符号化層に入力して、ｉ番目の符号化層の出力ベクトルを取得することは、
前記ｉ－１番目の符号化層の出力ベクトルを第１符号化自己注意層に入力して、第３中間ベクトルを取得することと、
前記第３中間ベクトルと前記大域画像特徴とを第２符号化自己注意層に入力して、第４中間ベクトルを取得することと、
前記第４中間ベクトルを第１フィードフォワード層により処理して、ｉ番目の符号化層の出力ベクトルを取得することとを含む。

【0012】

好ましくは、デコーダはのＭ個の順次接続された復号化層を含み、Ｍは１より大きい整
数であり、
前記符号化ベクトルと前記大域画像特徴とをデコーダに入力して、前記デコーダの出力の復号化ベクトルを生成することは、
Ｓ２１：参照復号化ベクトルと、前記符号化ベクトルと、前記大域画像特徴とを１番目の復号化層に入力して、１番目の復号化層の出力ベクトルを取得することと、
Ｓ２２：ｊ－１番目の復号化層の出力ベクトルと、前記符号化ベクトルと、前記大域画像特徴とをｊ番目の復号化層に入力して、ｊ番目の復号化層の出力ベクトルを取得し、２≦ｊ≦Ｍであることと、
Ｓ２３：ｊがＭに等しいかどうかを判断し、等しくない場合はｊを１だけインクリメントしてステップＳ２２を実行し、等しい場合はステップＳ２４を実行することと、
Ｓ２４：Ｍ番目の復号化層の出力ベクトルを前記デコーダの出力の復号化ベクトルとすることとを含む。

【0013】

好ましくは、前記復号化層は、第１復号化自己注意層と、第２復号化自己注意層と、第３復号化自己注意層と第２フィードフォワード層とを含み、
参照復号化ベクトルと、前記符号化ベクトルと、前記大域画像特徴とを１番目の復号化層に入力して、１番目の復号化層の出力ベクトルを取得することは、
前記参照復号化ベクトルを前記第１復号化自己注意層により処理して、第５中間ベクトルを取得することと、
前記第５中間ベクトルと前記大域画像特徴とを前記第２復号化自己注意層により処理して、第６中間ベクトルを取得することと、
前記第６中間ベクトルと前記符号化ベクトルとを前記第３復号化自己注意層により処理して、第７中間ベクトルを取得することと、
第７中間ベクトルを第２フィードフォワード層により処理して、１番目の復号化層の出力ベクトルを取得することとを含む。

【0014】

好ましくは、前記復号化層は、第１復号化自己注意層と、第２復号化自己注意層と、第３復号化自己注意層と第２フィードフォワード層とを含み、
ｊ－１番目の復号化層の出力ベクトルと、符号化ベクトルと、大域画像特徴とをｊ番目の復号化層に入力して、ｊ番目の復号化層の出力ベクトルを取得することは、
ｊ－１番目の復号化層の出力ベクトルを前記第１復号化自己注意層により処理して、第８中間ベクトルを取得することと、
前記第８中間ベクトルと前記大域画像特徴とを前記第２復号化自己注意層により処理して、第９中間ベクトルを取得することと、
前記第９中間ベクトルと前記符号化ベクトルとを前記第３復号化自己注意層により処理して、第１０中間ベクトルを取得することと、
前記第１０中間ベクトルを前記第２フィードフォワード層により処理して、ｊ番目の復号化層の出力ベクトルを取得することとを含む。

【0015】

第２形態として、本願の実施例は、
複数の第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、各前記第１特徴抽出モデルに生成された画像特徴を取得するように構成されている、特徴抽出モジュールと、
前記複数の第１特徴抽出モデルに生成された画像特徴に対して融合処理を行って、前記ターゲット画像に対応する大域画像特徴を生成するように構成されている、大域画像特徴抽出モジュールと、
第２特徴抽出モデルを用いて前記ターゲット画像に対して特徴抽出を行って、前記ターゲット画像に対応するターゲット検出特徴を取得するように構成されている、ターゲット検出特徴抽出モジュールと、
前記ターゲット画像に対応する前記大域画像特徴と前記ターゲット検出特徴とを翻訳モ
デルに入力して、生成された翻訳文を前記ターゲット画像のキャプション文とするように構成されている、翻訳モジュールとを含む、画像キャプションの装置を提供する。

【0016】

第３形態として、本願の実施例は、
メモリと、プロセッサと、メモリに格納されているプロセッサが実行可能なコンピュータコマンドとを含み、前記プロセッサは当該コマンドを実行すると、上記の画像キャプションの方法のステップを実現する、計算機器を提供する。

【0017】

第４形態として、本願の実施例は、コンピュータコマンドが記憶されているコンピューター読み取り可能な記憶媒体であって、当該コマンドがプロセッサによって実行されると、上記の画像キャプションの方法のステップを実現する、コンピューター読み取り可能な記憶媒体を提供する。

【0018】

第５形態として、本願の実施例は、実行されると、上記の画像キャプションの方法のステップを実現する、コンピュータープログラム製品を提供する。

【0019】

本願に提供した画像キャプションの方法、装置、計算機器及び記憶媒体は、複数の第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、各第１特徴抽出モデルに生成された画像特徴を取得し、複数の第１特徴抽出モデルに生成された画像特徴を融合してターゲット画像に対応する大域画像特徴を生成する。これは、単一の特徴抽出モデルがモデル自身の性能に依存し過ぎるという欠陥を克服し、従来技術である単一の特徴抽出モデルによる画像特徴に比べて、単一の特徴抽出モデルが抽出した画像特徴の性能が単一である欠陥を軽減できる。これにより、後続するターゲット画像に対応する大域画像特徴とターゲット検出特徴とを翻訳モデルに入力して翻訳文を生成するプロセスでは、より豊富な画像情報を含む大域画像特徴を参照とし、出力した翻訳文をより正確にすることができる。

【0020】

次に、本願は、複数の第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行い、複数の第１特徴抽出モデルが抽出した画像特徴をスティッチングして、初期大域特徴を取得する。これにより、初期大域特徴にできるだけターゲット画像の特徴をより完全に含める。そして、複数の第２自己注意層により融合を行って、注目すべきターゲット領域を取得する。その後、この領域に対して、より多くの注意計算リソースを投入し、より多くのターゲット画像に関する詳細情報を取得し、他の無関係な情報を無視する。このようなメカニズムによって、限られる注意計算リソースを利用して大量の情報から価値が高い情報を素早く選出して、より豊富な画像情報を含む大域画像特徴を得ることができる。

【0021】

さらに、本願は、ターゲット検出特徴と大域画像特徴とをエンコーダに入力する。これにより、各復号化層の復号化のプロセスでは、豊富な画像情報を含む大域画像特徴を背景情報とすることができ、復号化によって得られた復号化ベクトルと画像情報との対応度をより高くし、出力した翻訳文をより正確にすることができる。

【0022】

なお、本願は、大域画像特徴をデコーダの各復号化層に入力する。これにより、各復号化層の復号化のプロセスでは、豊富な画像情報を含む大域画像特徴を背景情報とすることができ、復号化によって得られた復号化ベクトルと画像情報との対応度をより高くし、出力した翻訳文をより正確にすることができる。

【図面の簡単な説明】

【0023】

本願の実施例及び従来技術の技術案をより明確に説明するために、以下、実施例及び従来技術に必要な図面を簡単に説明する。無論、以下に説明される図面は単に本願のいくつかの実施例に過ぎず、当業者であれば、創造的な働きをせずに、これらの図面に基づいて
他の図面を得ることができる。

【0024】

【図1】図１は本願の一実施例の計算機器の構成模式図である。

【図2】図２は本願の一実施例の画像キャプションの方法の模式的フローチャートである。

【図3】図３は本願の一実施例の画像キャプションの方法の模式的フローチャートである。

【図4】図４は本願の一実施例の翻訳モデルの符号化層の構成模式図である。

【図5】図５は本願の一実施例の翻訳モデルの復号化層の構成模式図である。

【図6】図６は本願の他の実施例の画像キャプションの方法の模式図である。

【図7】図７は本願の他の実施例の画像キャプションの装置の構成模式図である。

【発明を実施するための形態】

【0025】

以下、本願の実施例の目的、技術案及び利点をより明確にするために、図面を参照しながら例を挙げて本願の実施例をさらに詳しく説明する。無論、説明される実施例は単に本願の実施例の一部であり、全ての実施例ではない。本願の実施例に基づいて、当業者が創造的な労働を必要とせずに得られる全ての他の実施例は何れも本願の保護範囲に該当する。

【0026】

本明細書の１つまたは複数の実施例に使用された用語は、特定実施例を説明するものに過ぎず、本明細書の１つまたは複数の実施例を制限するものではない。本明細書の１つまたは複数の実施例、及び請求項に使用された単数形の「１種」や「前記」、「当該」は、文脈に他の意味を明確に示さない限り、複数形も含む。なお、本明細書の１つまたは複数の実施例に使用された「及び／または」という用語は、挙げられた１つまたは複数の関連するアイテムの任意またはすべての可能な組み合わせを含むことが理解すべきである。

【0027】

本明細書の１つまたは複数の実施例において、第１、第２などの用語を使用して様々な情報を説明すること可能であるが、これらの情報はこれらの用語に限定されるものではないことを理解すべきである。これらの用語は、同じ種類の情報を互いに区別するのみに使用される。例えば、本明細書の１つまたは複数の実施例から逸脱することない場合、第１は、第２と呼ばれることもできるし、類似に、第２は、文脈に応じて、第１と呼ばれることもできる。

【0028】

まず、本願の１つまたは複数の実施例に係る用語について説明する。

【0029】

画像特徴融合：画像特徴入力段階において、単一の画像特徴の代わりに、複数の事前にトレーニングした畳み込みネットワークによって抽出された特徴を使って融合を行うことで、トレーニングネットワークにより豊富な特徴入力を提供することである。

【0030】

ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）モデル：フィードバック構造を備えるニューラルネットワークであって、その出力は、現在の入力とネットワークの重み値に関連するだけでなく、以前のネットワークの入力にも関連する。ＲＮＮモデルは、時点を跨いで自己結合する隠れ層を添加することで、時間に対してモデルを作る。換言すると、隠れ層のフィードバックは、出力端だけではなく、次の時間の隠れ層にも伝達される。

【0031】

Ｔｒａｎｓｆｏｒｍｅｒ：翻訳モデルであって、そのアーキテクチャーは、エンコーダ（ｅｎｃｏｄｅｒ）－デコーダ（ｄｅｃｏｄｅｒ）であることを含む。エンコーダは、翻訳対象のソース文を符号化してベクトルを生成することを実現する。デコーダは、ソース文のベクトルを復号化して対応するターゲット文を生成することを実現する。

【0032】

画像キャプション（ｉｍａｇｅｃａｐｔｉｏｎ）：コンピュータビジョンと、自然言
語処理と、機械学習とを融合した総合的な課題であり、画像に基づいて画像コンテンツを説明できる自然言語の文を生成する。平たく言えば、画像をキャプション文に翻訳することである。

【0033】

自己注意計算：例えば、文を入力して自己注意計算を行うと、その中の各単語はいずれも当該文における全ての単語と自己注意計算を行う。その目的は、文中の単語の依存関係を学習し、文の内部構造を把握することである。入力された画像特徴に対して自己注意計算を行うと、各特徴に対して他の特徴と自己注意計算を行う。その目的は、画像内部の特徴依存関係を学習することである。

【0034】

大域画像特徴：ターゲット画像に対応する全ての特徴である。

【0035】

ターゲット検出特徴：ターゲット画像における特定領域の特徴である。

【0036】

本願では、画像キャプションの方法、装置、計算機器及びコンピューター読み取り可能な記憶媒体を提出する。以下の実施例によって、それぞれを詳しく説明する。

【0037】

図１は本願の一実施例に係る計算機器１００のブロック構成図を示す。当該計算機器１００の部品は、メモリ１１０とプロセッサ１２０を含むが、それらに限られない。プロセッサ１２０とメモリ１１０とは、バス１３０により接続され、データベース１５０はデータを格納することに用いられる。

【0038】

計算機器１００は、アクセス機器１４０をさらに含む。アクセス機器１４０により、計算機器１００は、１つまたは複数のネットワーク１６０を介して通信できることになる。例えば、計算機器１００は、アクセス機器１４０により、ネットワーク１６０を介してデータベース１５０と通信することができる。これらのネットワークの例示は、公衆交換電話網（ＰＳＴＮ）、構内ネットワーク（ＬＡＮ）、広域通信網（ＷＡＮ）、パーソナルエリアネットワーク（ＰＡＮ）またはインターネットのような通信ネットワークの組み合わせなどを含む。アクセス機器１４０は、有線または無線の任意のタイプのネットワークインタフェース（例えば、ネットワークインターフェースカード（ＮＩＣ））の１つまたは複数、例えば、ＩＥＥＥ８０２.１１無線構内ネットワーク（ＷＬＡＮ）無線インタフェ
ース、ワイマックス（Ｗｉ－ＭＡＸ）インタフェース、イーサネットインタフェース、ユニバーサルシリアルバス（ＵＳＢ）インタフェース、セルラーネットワークインタフェース、ブルートゥースインタフェース、近距離無線通信（ＮＦＣ）インタフェースなどを含む。

【0039】

本願の一実施例において、計算機器１００の上記部品、及び図１に示さない他の部品は、例えばバスで互いに接続することができる。図１に示す計算機器のブロック構成図は、例示に過ぎず、本明細書の範囲を限定するものではないことを理解すべきである。当業者であれば、必要に応じて他の部品を追加または交換してもよい。

【0040】

計算機器１００は、任意のタイプの据え置き型または携帯型計算機器であり、携帯型コンピュータまたは携帯型計算機器（例えば、タブレットコンピュータ、パーソナルデジタルアシスタント、ラップトップコンピュータ、ノートパソコン、ネットブックなど）、携帯電話（例えば、スマートフォン）、ウェアラブル計算機器（例えば、スマートウォッチ、スマートグラスなど）または他のタイプの携帯機器、或いは、例えばデスクトップパソコンまたはＰＣなどの据え置き型計算機器を含む。計算機器１００は、携帯型または据え置き型のサーバーであってもよい。

【0041】

プロセッサ１２０は、図２に示す方法におけるステップを実行できる。図２は、本願の一実施例に係る画像キャプションの方法の模式的フローチャートであって、ステップ２０１からステップ２０４を含む。

【0042】

ステップ２０１：複数の第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、各第１特徴抽出モデルに生成された画像特徴を取得する。

【0043】

具体的には、第１特徴抽出モデルは複数であってもよい。本願では、複数の第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行う。第１特徴抽出モデルのタイプは、ＶＧＧ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐＮｅｔｗｏｒｋ）、Ｒｅｓｎ
ｅｔモデル、Ｄｅｎｓｎｅｔモデル、ｉｎｃｅｐｔｉｏｎｖ３モデルなどの畳み込みネットワークモデルを含んでもよい。

【0044】

一可能な実施形態として、複数の第１特徴モデルが抽出した画像特徴のサイズは同じである。第１特徴モデルの畳み込み層のパラメータを設定することにより、画像特徴のサイズを調整できる。サイズが同じであることに加えて、各画像特徴のチャンネル数も同じでもよい。例えば、抽出された画像特徴のダイメンションは２２４＊２２４＊３と表してもよい。その中、２２４＊２２４は、画像特徴の高さ＊幅を、即ち画像特徴のサイズを表す。３は、チャンネル数であり、即ち画像特徴の個数である。一般的に、入力された画像の高さと幅は等しく、畳み込み層の畳み込みカーネルのサイズは実際のニーズに応じて設定されることができ、通常に使用される畳み込みカーネルが１＊１＊１、３＊３＊３、５＊５＊５、７＊７＊７などである。

【0045】

一可能な実施形態として、複数の第１特徴モデルに生成された画像特徴のサイズはいずれも同じであるが、画像特徴の個数（チャンネル数）は互いに異なってもよい。例えば、１番目の第１特徴抽出モデルに生成された画像特徴はＰ＊Ｑ＊Ｌ１であり、つまり、画像特徴はＬ１個であり、画像特徴のサイズはＰ＊Ｑである。２番目の第１特徴抽出モデルに生成された画像特徴はＰ＊Ｑ＊Ｌ２であり、つまり、画像特徴がＬ２個であり、画像特徴のサイズはＰ＊Ｑである。Ｐ＊Ｑは画像特徴の高さ＊幅であり、Ｌ１とＬ２のそれぞれは１番目の第１特徴モデルと２番目の第１特徴モデルに生成された画像特徴の個数である。

【0046】

２０２：複数の第１特徴抽出モデルに生成された画像特徴に対して融合処理を行って、ターゲット画像に対応する大域画像特徴を生成する。

【0047】

ポアソン融合方法、加重平均法、フェザーアルゴリズム、ラプラシアン融合アルゴリズム、自己注意アルゴリズム等によって、各第１特徴抽出モデルに生成された画像特徴を融合処理して、ターゲット画像に対応する大域画像特徴を取得する。

【0048】

一可能な実施形態として、ステップ２０２は以下のステップを含む。

【0049】

Ｓ２０２１：複数の第１特徴抽出モデルに生成された画像特徴のそれぞれに対して対応する第１自己注意層によって特徴抽出を行って、複数の中間特徴を取得する。

【0050】

第１自己注意層はマルチヘッド自己注意層とフィードフォワード層とを含む。このステップにおいて、第１自己注意層の個数と第１特徴抽出モデルの個数は同じである。

【0051】

各第１特徴抽出モデルは、それぞれに応じた第１自己注意層に対応してもよい。例えば、５つの第１特徴抽出モデルを例として、当該５つの第１特徴モデルはいずれも同じ画像を処理して対応する画像特徴を生成する。そして、各第１特徴抽出モデルに生成された画
像特徴のそれぞれに対して対応する第１自己注意層によって特徴抽出を行って、生成した中間特徴を取得する。

【0052】

Ｓ２０２２：複数の中間特徴をスティッチングして、初期大域特徴を生成する。

【0053】

スティッチング処理は、ｃｏｎｔａｃｔ関数を呼び出すことで実現できる。

【0054】

例えば、５つの第１特徴抽出モデルを例として、５つの第１特徴抽出モデルに対応する第１自己注意層が生成した中間特徴をスティッチング処理して、１つの初期大域特徴を生成する。例えば、１番目の第１特徴抽出モデルに対応する第１自己注意層は、Ａ１個の中間特徴を生成し、中間特徴のサイズがＰ＊Ｑである。２番目の第１特徴抽出モデルに対応する第１自己注意層は、Ａ２個の中間特徴を生成し、中間特徴のサイズがＰ＊Ｑである。３番目の第１特徴抽出モデルに対応する第１自己注意層は、Ａ３個の中間特徴を生成し、中間特徴のサイズがＰ＊Ｑである。４番目の第１特徴抽出モデルに対応する第１自己注意層は、Ａ４個の中間特徴を生成し、中間特徴のサイズがＰ＊Ｑである。５番目の第１特徴抽出モデルに対応する第１自己注意層は、Ａ５個の中間特徴を生成し、中間特徴のサイズがＰ＊Ｑである。それで、スティッチング処理された初期大域特徴は、（Ａ１＋Ａ２＋Ａ３＋Ａ４＋Ａ５）個の特徴を含む。

【0055】

このステップにおいて、複数の中間特徴をスティッチングするが、更なる融合処理をしないため、中間特徴に比べて、生成された初期大域特徴は、特徴間の関係は変化しないことが理解できる。これは、初期大域特徴の特徴が一部重複し、このような特徴が後続するステップにおいてさらに処理されることも意味する。

【0056】

Ｓ２０２３：少なくとも１つの第２自己注意層によって初期大域特徴に対して融合処理を行って、大域画像特徴を生成する。

【0057】

第２自己注意層はマルチヘッド自己注意層とフィードフォワード層とを含む。このステップにおいて、第２自己注意層の個数は複数であってもよく、実際のニーズに応じてカスタマイズで設定されてよい。

【0058】

一実施形態として、第２自己注意層の構成と第１自己注意層の構成とは同じであってもよい。その目的は、いずれも、後続するステップにおいて処理すべくベクトルを抽出するように、入力されたベクトルに対して自己注意処理を行うことである。しかし、第１自己注意層と第２自己注意層とがいずれも複数である場合、複数の第１自己注意層は、並行に各第１特徴抽出モデルに生成された画像特徴を処理するが、第２自己注意層は、順次に初期大域特徴を一層ずつ処理すること、という点で異なる。

【0059】

複数の中間特徴によってスティッチングして生成した初期大域特徴は、第２自己注意層によって融合処理を行って、異なる特徴間の相互融合を促進する。

【0060】

例えば、初期大域特徴に含まれているＣクラスの特徴Ｃ１とＣクラスの特徴Ｃ２とに対して、両者の関連性は比較的に強い。第２自己注意層によって融合処理を行うプロセスでは、第２自己注意層は関連性の強い特徴Ｃ１とＣ２に注目し、特徴Ｃ１とＣ２を融合して特徴Ｃ１'を得る。

【0061】

また、例えば、初期大域特徴は、複数の重複なＤクラスの特徴Ｄ１を含む。第２自己注意層によって融合処理を行うプロセスでは、第２自己注意層は複数の重複な特徴Ｄ１に注目し、複数の重複な特徴Ｄ１を１つのＤクラスの特徴Ｄ１に生成する。

【0062】

本実施例において、例えば、ポアソン融合方法、加重平均法、フェザーアルゴリズム、ラプラシアン融合アルゴリズム、自己注意アルゴリズム等、多くの特徴融合の方法がある。本実施例では、自己注意アルゴリズムを用いることが好ましい。

【0063】

例えば、キーバリューペア（ｋｅｙ－ｖａｌｕｅ）で入力情報を表することができる。アドレスＫｅｙはキーを表し、ｖａｌｕｅは当該キーに対応するバリューを表す。「キー」は注意力分布を計算することに用いられ、「バリュー」は集約情報を計算することに用いられる。これで、ｎ個の入力情報は、（Ｋ,Ｖ）= [(ｋ１,ｖ１),(ｋ２,ｖ２),...,(ｋ
ｎ,ｖｎ)]と表することができる。

【0064】

具体的に、まず、式（１）によって、ＱｕｅｒｙとＫｅｙとの類似度を計算する。

【数1】

ここで、Ｓｉは注意力スコアであり、
ＱはＱｕｅｒｙであって、クエリベクトルであり、
ｋｉは各ｋｅｙベクトルに対応する。

【0065】

そして、式（２）によって、ｓｏｆｔｍａｘ関数で注意力スコアに対して数値変換を行う。正規化を行って、全ての重み係数の和が１である確率分布を得ることができる。一方で、ｓｏｆｔｍａｘ関数の特性で重要な要素の重みを強調することもできる。

【数2】

ここで、αｉは重み係数である。

【0066】

最後に、式（３）によって、重み係数に基づき、ｖａｌｕｅに対して加重加算を行う。

【数3】

ここで、ｖ_ｉはｖａｌｕｅベクトルである。

【0067】

自己注意計算によって、（Ａ１＋Ａ２＋Ａ３＋Ａ４＋Ａ５）個の特徴を含む初期大域特徴に対して第２自己注意層で融合処理を行って、Ａ’個の特徴の大域画像特徴を得ることができる。一般的に、Ａ'は（Ａ１＋Ａ２＋Ａ３＋Ａ４＋Ａ５）の以下である。

【0068】

２０３：第２特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、ターゲット画像に対応するターゲット検出特徴を取得する。

【0069】

本願では、ターゲット画像に対して局所情報の抽出を実現するように、第２特徴モデルは、ターゲット検出特徴モデルであることができる。

【0070】

このステップ２０３において、画像中の関心領域を識別するために、第２特徴抽出モデルとして、Ｆａｓｔｅｒ－ＲＮＮ（ＦａｓｔｅｒＲｅｇｉｏｎｓｗｉｔｈＣＮＮｆｅａｔｕｒｅｓ）モデルを選択してよい。そして、設定された閾値によって、複数の関心領域に対応する関心枠の重ね合わせを許可する。これにより、画像コンテンツをさらに効果的に理解できる。

【0071】

Ｆａｓｔｅｒ－ＲＮＮがターゲット検出特徴を抽出することは、主に以下のステップを
含む。
１）特徴抽出：ターゲット画像全体を入力として、ターゲット画像の特徴層を取得する。２）候補領域：選択調査（ＳｅｌｅｃｔｉｖｅＳｅａｒｃｈ）等の方法によって、ター
ゲット画像から関心領域を抽出し、これらの関心領域に対応する関心枠を一つずつ最後の特徴層に投影する。
３）領域正規化：特徴層の各候補領域の候補枠に対してプーリング操作を行って、固定サイズの特徴表現を取得する。
４）分類：２つの全結合層によって、それぞれＳｏｆｔｍａｘ多分類関数を用いてターゲット識別を行って、最終的なターゲット検出特徴を取得する。

【0072】

２０４：ターゲット画像に対応する大域画像特徴とターゲット検出特徴とを翻訳モデルに入力して、生成された翻訳文をターゲット画像のキャプション文とする。

【0073】

翻訳モデルは、エンコーダとデコーダとを含む。翻訳モデルは、例えば、Ｔｒａｎｓｆｏｒｍｅｒモデル、ＲＮＮモデル等、多種類がある。本実施例は、出力した文をより正確させるために、Ｔｒａｎｓｆｏｒｍｅｒモデルを用いることが好ましい。

【0074】

ＲＮＮモデルと比べ、Ｔｒａｎｓｆｏｒｍｅｒモデルは、ループが必要なく、入力ターゲット画像に対応する大域画像特徴とターゲット検出特徴を並行に処理するとともに、自己注意メカニズムにより特徴を互いに融合する。Ｔｒａｎｓｆｏｒｍｅｒモデルは、ＲＮＮよりトレーニング速度がはるかに速く、翻訳結果もＲＮＮの翻訳結果に比べてより正確である。

【0075】

一実施形態として、翻訳文は、複数の翻訳単語を含んでもよい。デコーダにとって、１回の復号で１つの翻訳単語が得られる。前記翻訳文の１番目の翻訳単語にとって、前記参照復号化ベクトルは事前設定の初期復号化ベクトルであり、前記翻訳文の１番目の翻訳単語以外の他の翻訳単語にとって、その参照復号化ベクトルは１つ前の翻訳単語に対応する復号化ベクトルである。

【0076】

本願に提供した画像キャプションの方法は、複数の第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、各第１特徴抽出モデルに生成された画像特徴を取得し、複数の第１特徴抽出モデルに生成された画像特徴を融合してターゲット画像に対応する大域画像特徴を生成する。これは、単一の特徴抽出モデルがモデル自身の性能に依存し過ぎるという欠陥を克服し、従来技術である単一の特徴抽出モデルによる画像特徴に比べて、単一の特徴抽出モデルが抽出した画像特徴の性能が単一であるという欠陥を緩和できる。これにより、後続するターゲット画像に対応する大域画像特徴とターゲット検出特徴とを翻訳モデルに入力して翻訳文を生成するプロセスでは、より豊富な画像情報を含む大域画像特徴を参照とし、出力した翻訳文をより正確にすることができる。

【0077】

本願の一実施例の画像キャプションの方法は、図３に示すように、以下のステップをさらに含んでもよい。
３０１：複数の第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、各第１特徴抽出モデルに生成された画像特徴を取得する。
３０２：複数の第１特徴抽出モデルに生成された画像特徴に対して融合処理を行って、ターゲット画像に対応する大域画像特徴を生成する。
３０３：第２特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、ターゲット画像に対応するターゲット検出特徴を取得する。

【0078】

ステップ３０１～３０３については、前述した実施例におけるステップ２０１～２０３と同じであり、詳細的な説明は前述した実施例に参照することができるため、ここで繰り
返し説明しない。

【0079】

３０４：ターゲット検出特徴と大域画像特徴とを翻訳モデルのエンコーダに入力して、エンコーダの出力の符号化ベクトルを生成する。

【0080】

好ましくは、エンコーダは、１つの符号化層を含んでよいが、複数の符号化層を含んでもよい。本実施例は、エンコーダはＮ個の順次接続された符号化層を含むことを例として説明し、Ｎ＞１である。ステップ３０４は、以下のステップＳ３０４１～Ｓ３０４４を含む。

【0081】

Ｓ３０４１：前記ターゲット検出特徴と大域画像特徴とを１番目の符号化層に入力して、１番目の符号化層の出力ベクトルを取得する。
Ｓ３０４２：ｉ－１番目の符号化層の出力ベクトルと大域画像特徴とをｉ番目の符号化層に入力して、ｉ番目の符号化層の出力ベクトルを取得し、２≦ｉ≦Ｎである。
Ｓ３０４３：ｉがＮに等しいかどうかを判断する。等しくない場合はｉを１だけインクリメントしてステップＳ３０４２を実行し、等しい場合はステップＳ３０４４を実行する。
Ｓ３０４４：Ｎ番目の符号化層の出力ベクトルをエンコーダが出力する符号化ベクトルとする。

【0082】

大域画像特徴と１番目の符号化層の出力ベクトルとを２番目の符号化層に入力し、２番目の符号化層の出力ベクトルを取得する。大域画像特徴と２番目の符号化層の出力ベクトルとを３番目の符号化層に入力し、３番目の符号化層の出力ベクトルを取得する。このように、Ｎ番目の符号化層の出力ベクトルが得られるまで続けられる。

【0083】

本願の実施例では、符号化層側において、大域画像特徴を各符号化層に入力して、各符号化層の処理においてターゲット検出特徴にいずれも大域画像特徴を融合することで、ターゲット検出特徴の特徴表現を強化する。

【0084】

一可能な実施形態として、図４を参照して、符号化層は、第１符号化自己注意層と、第２符号化自己注意層と、第１フィードフォワード層とを含む。
ステップＳ３０４１は、前記ターゲット検出特徴を第１符号化自己注意層に入力して、第１中間ベクトルを取得することと、第１中間ベクトルと大域画像特徴とを第２符号化自己注意層に入力して、第２中間ベクトルを取得することと、前記第２中間ベクトルを第１フィードフォワード層により処理して、１番目の符号化層の出力ベクトルを取得することとを含む。

【0085】

ステップＳ３０４２は、前記ｉ－１番目の符号化層の出力ベクトルを第１符号化自己注意層に入力して、第３中間ベクトルを取得することと、第３中間ベクトルと大域画像特徴とを第２符号化自己注意層に入力して、第４中間ベクトルを取得することと、前記第４中間ベクトルを第１フィードフォワード層により処理して、ｉ番目の符号化層の出力ベクトルを取得することとを含む。

【0086】

３０５：符号化ベクトルと大域画像特徴とをデコーダに入力して、デコーダの出力の復号化ベクトルを生成する。

【0087】

好ましくは、デコーダは、１つの復号化層を含んでよいが、複数の復号化層を含んでもよい。本実施例は、デコーダはＭ個の順次接続された復号化層を含むことを例として説明し、Ｍ＞１である。

【0088】

ステップ３０５は、以下のステップＳ３０４１～Ｓ３０５４を含む。
Ｓ３０５１：参照復号化ベクトルと、符号化ベクトルと、大域画像特徴とを１番目の復号化層に入力して、１番目の復号化層の出力ベクトルを取得し、
前記翻訳文の１番目の翻訳単語にとって、前記参照復号化ベクトルは初期復号化ベクトルであり、
前記翻訳文の他の翻訳単語にとって、前記参照復号化ベクトルは１つ前の翻訳単語に対応する復号化ベクトルである。

【0089】

Ｓ３０５２：ｊ－１番目の復号化層の出力ベクトルと、符号化ベクトルと、大域画像特徴とをｊ番目の復号化層に入力して、ｊ番目の復号化層の出力ベクトルを取得し、２≦ｊ≦Ｍである。

【0090】

Ｓ３０５３：ｊがＭに等しいかどうかを判断し、等しくない場合はｊを１だけインクリメントしてステップＳ３０５２を実行し、等しい場合はステップＳ３０５４を実行する。

【0091】

Ｓ３０５４：Ｍ番目の復号化層の出力ベクトルをデコーダが出力する復号化ベクトルとする。

【0092】

符号化ベクトルと、大域画像特徴と１番目の復号化層の出力ベクトルとを２番目の復号化層に入力して、２番目の復号化層の出力ベクトルを取得する。符号化ベクトルと、大域画像特徴と２番目の復号化層の出力ベクトルとを３番目の復号化層に入力して、３番目の復号化層の出力ベクトルを取得する。このように、Ｍ番目の復号化層の出力ベクトルを取得するまで続けられる。

【0093】

本願の実施例では、大域画像特徴をデコーダの各復号化層に入力する。これにより、各復号化層の復号化のプロセスでは、豊富な画像情報を含む大域画像特徴を背景情報とすることができ、復号化によって得られた復号化ベクトルと画像情報との対応度をより高くし、出力した翻訳文をより正確にすることができる。

【0094】

一可能な実施形態として、図５を参照して、復号化層は、第１復号化自己注意層と、第２復号化自己注意層と、第３復号化自己注意層と第２フィードフォワード層とを含む。

【0095】

ステップＳ３０５１は、参照復号化ベクトルを前記第１復号化自己注意層により処理して、第５中間ベクトルを取得することと、第５中間ベクトルと前記大域画像特徴とを前記第２復号化自己注意層により処理して、第６中間ベクトルを取得することと、第６中間ベクトルと前記符号化ベクトルとを前記第３復号化自己注意層により処理して、第７中間ベクトルを取得することと、第７中間ベクトルを第２フィードフォワード層により処理して、１番目の復号化層の出力ベクトルを取得することとを含む。

【0096】

ステップＳ３０５２は、ｊ－１番目の復号化層の出力ベクトルを前記第１復号化自己注意層により処理して、第８中間ベクトルを取得することと、第８中間ベクトルと前記大域画像特徴とを前記第２復号化自己注意層により処理して、第９中間ベクトルを取得することと、第９中間ベクトルと前記符号化ベクトルとを前記第３復号化自己注意層により処理して、第１０中間ベクトルを取得することと、第１０中間ベクトルを第２フィードフォワード層により処理して、ｊ番目の復号化層の出力ベクトルを取得することを含む。

【0097】

３０６：デコーダの出力の復号化ベクトルに基づいて対応する翻訳文を生成し、翻訳文をターゲット画像のキャプション文とする。

【0098】

一可能な実施形態として、前記デコーダの出力の復号化ベクトルに基づいて対応する翻
訳単語を生成し、前記翻訳単語に基づいて翻訳文を生成する。

【0099】

好ましくは、翻訳文は、複数の翻訳単語を含んでもよい。デコーダにとって、１回の復号化で１つの翻訳単語が得られる。前記翻訳文の１番目の翻訳単語にとって、前記参照復号化ベクトルは事前設定の初期復号化ベクトルであり、前記翻訳文の１番目の翻訳単語以外の他の翻訳単語にとって、その参照復号化ベクトルは１つ前の翻訳単語に対応する復号化ベクトルである。

【0100】

【0101】

次に、本実施例は、複数の第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行い、複数の第１特徴抽出モデルが抽出した画像特徴をスティッチングして、初期大域特徴を取得する。これにより、初期大域特徴にできるだけターゲット画像の特徴をより完全に含める。そして、複数の第２自己注意層により融合を行って、注目すべきターゲット領域を取得する。その後、この領域に対して、より多くの注意計算リソースを投入し、より多くのターゲット画像に関する詳細情報を取得し、他の無関係な情報を無視する。このようなメカニズムによって、限られる注意計算リソースを利用して大量の情報から価値が高い情報を素早く選出して、より豊富な画像情報を含む大域画像特徴を得ることができる。

【0102】

さらに、この方法は、大域画像特徴をデコーダの各復号化層に入力する。これにより、各復号化層の復号化のプロセスでは、豊富な画像情報を含む大域画像特徴を背景情報とすることができ、復号化によって得られた復号化ベクトルと画像情報との対応度をより高くし、出力した翻訳文をより正確にすることができる。

【0103】

本実施例の画像キャプションの方法は、エンコーダ－デコーダという機械翻訳モデルに適用する。本願の画像キャプション的方法をより明確に説明するために、図６を参照して、Ｔｒａｎｓｆｏｒｍｅｒ翻訳モデルを例として模式的な説明をする。図６には、ＶＧＧ、Ｒｅｓｎｅｔ、Ｄｅｎｓｎｅｔ、ｉｎｃｅｐｔｉｏｎｖ３という４つの第１特徴抽出モデルと、４つの第１自己注意層と、Ｋ個の第２自己注意層と、１つの第２特徴抽出モデルと、Ｔｒａｎｓｆｏｒｍｅｒ翻訳モデルとを含む。Ｃｏｎｔａｃｔはｃｏｎｔａｃｔ関数と指し、リンク関数の一種である。

【0104】

本実施例の画像キャプションの方法は、以下のステップＳ６１～Ｓ６８を含む。
Ｓ６１：４つの第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、各第１特徴抽出モデルに生成された画像特徴を取得する。

【0105】

Ｓ６２：４つの第１特徴抽出モデルに生成された画像特徴のそれぞれに対して対応する第１自己注意層により処理して、生成した中間特徴を取得する。
対応する第１自己注意層により１番目の第１特徴抽出モデルに生成された画像特徴を処理して、Ａ１個の中間特徴を取得し、中間特徴のサイズはＰ＊Ｑである。対応する第１自己注意層により２番目の第１特徴抽出モデルに生成された画像特徴を処理して、Ａ２個の
中間特徴を取得し、中間特徴のサイズはＰ＊Ｑである。対応する第１自己注意層により３番目の第１特徴抽出モデルに生成された画像特徴を処理して、Ａ３個の中間特徴を取得し、中間特徴のサイズはＰ＊Ｑである。対応する第１自己注意層により４番目の第１特徴抽出モデルに生成された画像特徴を処理して、Ａ４個の中間特徴を取得し、中間特徴のサイズはＰ＊Ｑである。

【0106】

Ｓ６３：４つの中間特徴をスティッチングして、初期大域特徴を生成する。
４つの中間特徴をスティッチングして、（Ａ１＋Ａ２＋Ａ３＋Ａ４）個の特徴を含む初期大域特徴を生成する。

【0107】

Ｓ６４：Ｋ個の第２自己注意層によって初期大域特徴に対して融合処理を行って、大域画像特徴を生成する。
本実施例において、Ｋ=３である。
（Ａ１＋Ａ２＋Ａ３＋Ａ４）個の特徴を含む初期大域特徴に対して融合処理を行って、Ａ'個の特徴を含む大域画像特徴を生成する。一般的に、Ａ'≦（Ａ１＋Ａ２＋Ａ３＋Ａ４）である。

【0108】

Ｓ６５：第２特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、ターゲット画像に対応するターゲット検出特徴を取得する。
本実施例では、第２特徴抽出モデルがＦａｓｔｅｒＲＮＮ（ＦａｓｔｅｒＲｅｇｉｏｎｓｗｉｔｈＣＮＮｆｅａｔｕｒｅｓ）モデルである。

【0109】

Ｓ６６：ターゲット検出特徴と大域画像特徴とをＴｒａｎｓｆｏｒｍｅｒ翻訳モデルのエンコーダに入力して、エンコーダの出力の符号化ベクトルを生成する。

【0110】

Ｓ６７：参照復号化ベクトルと、符号化ベクトルと、大域画像特徴とをデコーダに入力して、デコーダの出力の復号化ベクトルを生成する。
エンコーダはＮ個の符号化層を含み、デコーダはＭ個の復号化層を含む。

【0111】

Ｓ６８：デコーダの出力の復号化ベクトルに基づいて対応する翻訳文を生成し、前記翻訳文を前記ターゲット画像のキャプション文とする。

【0112】

キャプション文は、Ｔｒａｎｓｆｏｒｍｅｒモデルの性能に応じて、異なる種類のキャプション文が出力されてよい。Ｔｒａｎｓｆｏｒｍｅｒモデルの性能は、サンプル集合のトレーニングによって形成されることができる。例えば、サンプル集合は、「中国語翻訳待ち文＋フランス語翻訳文」の集合や、「英語翻訳待ち文＋日本語翻訳文」の集合または「画像特徴＋英語翻訳文」の集合である。本実施例には、Ｔｒａｎｓｆｏｒｍｅｒモデルの性能が入力された画像特徴に基づいて翻訳して英語の翻訳文を生成することを例として説明する。

【0113】

好ましくは、入力された初期参照復号化ベクトルと、符号化ベクトルと、大域画像特徴とに応じて、デコーダは復号化ベクトルを出力し、１番目の単語「ａ」が得られる。１番目の単語「ａ」に対応するベクトルを参照として、２番目の単語「ｂｏｙ」を復号化する。２番目の単語「ｂｏｙ」に対応するベクトルを参照復号化ベクトルとして、デコーダが参照復号化ベクトルと、符号化ベクトルと、大域画像特徴とに応じて次の単語「ｐｌａｙ」が得られる……このように、キャプション文「Ａｂｏｙｐｌａｙｆｏｏｔｂａｌｌｏｎｆｏｏｔｂａｌｌｆｉｅｌｄ」が得られる。

【0114】

図７を参照して、本願の一実施例は、
複数の第１特徴抽出モデルを用いてターゲット画像に対して特徴抽出を行って、各第１
特徴抽出モデルに生成された画像特徴を取得するように構成されている、特徴抽出モジュール７０１と、
前記複数の第１特徴抽出モデルに生成された画像特徴に対して融合処理を行って、前記ターゲット画像に対応する大域画像特徴を生成するように構成されている、大域画像特徴抽出モジュール７０２と、
第２特徴抽出モデルを用いて前記ターゲット画像に対して特徴抽出を行って、前記ターゲット画像に対応するターゲット検出特徴を取得するように構成されている、ターゲット検出特徴抽出モジュール７０３と、
前記ターゲット画像に対応する大域画像特徴とターゲット検出特徴とを翻訳モデルに入力して、生成された翻訳文を前記ターゲット画像のキャプション文とするように構成されている、翻訳モジュール７０４とを含む、画像キャプションの装置をさらに提供する。

【0115】

好ましくは、大域画像特徴抽出モジュール７０２は、具体的に、
前記複数の第１特徴抽出モデルに生成された画像特徴のそれぞれに対して対応する第１自己注意層によって特徴抽出を行って、複数の中間特徴を取得し、
複数の中間特徴をスティッチングして、初期大域特徴を生成し、
少なくとも１つの第２自己注意層によって初期大域特徴に対して融合処理を行って、大域画像特徴を生成するように構成されている。

【0116】

好ましくは、翻訳モデルはエンコーダとデコーダとを含み、
前記翻訳モジュール７０４は、
前記ターゲット検出特徴と大域画像特徴とを前記翻訳モデルのエンコーダに入力して、前記エンコーダの出力の符号化ベクトルを生成するように構成されている、符号化モジュールと、
前記符号化ベクトルと前記大域画像特徴とをデコーダに入力して、前記デコーダの出力の復号化ベクトルを生成するように構成されている、復号化モジュールと、
前記デコーダの出力の復号化ベクトルに基づいて対応する翻訳文を生成し、前記翻訳文を前記ターゲット画像のキャプション文とするように構成されている、文生成モジュールとを含む。

【0117】

好ましくは、前記エンコーダはＮ個の順次接続された符号化層を含み、Ｎは１より大きい整数であり、
符号化モジュールは、
前記ターゲット検出特徴と大域画像特徴とを１番目の符号化層に入力して、１番目の符号化層の出力ベクトルを取得するように構成されている、第１処理手段と、
ｉ－１番目の符号化層の出力ベクトルと大域画像特徴とをｉ番目の符号化層に入力して、ｉ番目の符号化層の出力ベクトルを取得するように構成されており、２≦ｉ≦Ｎである、第２処理手段と、
ｉがＮに等しいかどうかを判断し、等しくない場合はｉを１だけインクリメントして第２処理手段を実行し、等しい場合は符号化ベクトル生成手段を実行するように構成されている、第１判断手段と、
Ｎ番目の符号化層の出力ベクトルをエンコーダの出力の符号化ベクトルとするように構成されている、符号化ベクトル生成手段と、を含む。

【0118】

好ましくは、符号化層は、第１符号化自己注意層と、第２符号化自己注意層と、第１フィードフォワード層とを含み、第１処理手段は具体的に、前記ターゲット検出特徴を第１符号化自己注意層に入力して、第１中間ベクトルを取得し、第１中間ベクトルと大域画像特徴とを第２符号化自己注意層に入力して、第２中間ベクトルを取得し、前記第２中間ベクトルを第１フィードフォワード層により処理して、１番目の符号化層の出力ベクトルを取得するように構成されている。

【0119】

好ましくは、符号化層は、第１符号化自己注意層と、第２符号化自己注意層と、第１フィードフォワード層とを含み、
第２処理手段は、具体的に、
前記ｉ－１番目の符号化層の出力ベクトルを第１符号化自己注意層に入力して、第３中間ベクトルを取得し、
第３中間ベクトルと前記大域画像特徴とを第２符号化自己注意層に入力して、第４中間ベクトルを取得し、
第４中間ベクトルを第１フィードフォワード層により処理して、ｉ番目の符号化層の出力ベクトルを取得するように構成されている。

【0120】

好ましくは、デコーダはのＭ個の順次接続された復号化層を含み、Ｍは１より大きい整数であり、
前記復号化モジュールは、
参照復号化ベクトルと、符号化ベクトルと、大域画像特徴とを１番目の復号化層に入力して、１番目の復号化層の出力ベクトルを取得するように構成されている、第３処理手段と
ｊ－１番目の復号化層の出力ベクトルと、符号化ベクトルと、大域画像特徴とをｊ番目の復号化層に入力して、ｊ番目の復号化層の出力ベクトルを取得するように構成されており、２≦ｊ≦Ｍである、第４処理手段と、
ｊがＭに等しいかどうかを判断し、等しくない場合はｊを１だけインクリメントして第４処理手段を実行し、等しい場合は復号化ベクトル生成手段を実行するように構成されている、第２判断手段と、
Ｍ番目の復号化層の出力ベクトルをデコーダの出力の復号化ベクトルとするように構成されている、復号化ベクトル生成手段とを含む。

【0121】

好ましくは、前記復号化層は、第１復号化自己注意層と、第２復号化自己注意層と、第３復号化自己注意層、と第２フィードフォワード層とを含み、
第３処理手段は、具体的に、
参照復号化ベクトルを第１復号化自己注意層により処理して、第５中間ベクトルを取得し、
第５中間ベクトルと前記大域画像特徴とを前記第２復号化自己注意層により処理して、第６中間ベクトルを取得し、
第６中間ベクトルと前記符号化ベクトルとを前記第３復号化自己注意層により処理して、第７中間ベクトルを取得し、
第７中間ベクトルを第２フィードフォワード層により処理して、１番目の復号化層の出力ベクトルを取得するように構成されている。

【0122】

好ましくは、復号化層は、第１復号化自己注意層と、第２復号化自己注意層と、第３復号化自己注意層と、第２フィードフォワード層とを含み、
第４処理手段は、具体的に、
ｊ－１番目の復号化層の出力ベクトルを前記第１復号化自己注意層により処理して、第８中間ベクトルを取得し、
第８中間ベクトルと前記大域画像特徴とを前記第２復号化自己注意層により処理して、第９中間ベクトルを取得し、
第９中間ベクトルと前記符号化ベクトルとを前記第３復号化自己注意層により処理して、第１０中間ベクトルを取得し、
第１０中間ベクトルを第２フィードフォワード層により処理して、ｊ番目の復号化層の出力ベクトルを取得するように構成されている。

【0123】

上記は、本実施例の画像キャプションの装置の模式的な技術案である。なお、当該画像キャプションの装置の技術案と上記した画像キャプションの方法の技術案は同じ思想に属し、画像キャプションの装置の技術案に詳しく説明しなかった詳細内容は、いずれも上記した画像キャプションの方法の技術案の説明を参照することができる。

【0124】

本願の一実施例は、コンピューター読み取り可能な記憶媒体をさらに提供する。前記コンピューター読み取り可能な記憶媒体は、コンピュータコマンドが記憶されているコンピューター読み取り可能な記憶媒体であって、当該コマンドがプロセッサによって実行されると上記の画像キャプションの方法のステップを実現する。

【0125】

上記は、本実施例のコンピューター読み取り可能な記憶媒体の模式的な技術案である。なお、当該記憶媒体の技術案と上記した画像キャプションの方法の技術案は同じ思想に属し、記憶媒体の技術案に詳しく説明しなかった詳細内容は、いずれも上記した画像キャプションの方法の技術案の説明を参照することができる。

【0126】

本願の一実施例は、コンピュータープログラム製品をさらに提供する。前記コンピュータープログラム製品は、実行されると、上記の画像キャプションの方法のステップを実現する。

【0127】

前記コンピュータコマンドは、コンピュータプログラムコードを含む。前記コンピュータプログラムコードはソースコードの形式、オブジェクトコードの形式、実行可能なファイルまたはある中間形式等であってもよい。前記コンピュータ読み取り可能な媒体は、前記コンピュータプログラムコードを記録できる何らかの実装体または装置、記録媒体、
ＵＳＢメモリ、リムーバブルハードドライブ、磁気ディスク、光ディスク、コンピュータメモリ、読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、電気キャリア信号、通信信号及びソフトウェア配布媒体等を含んでもよい。なお、前記コンピュータ読み取り可能な媒体に含まれるコンテンツは、法域内の立法と特許実務の要件にしたがって適当に増減してもよく、例えばいくつかの法域に、立法と特許実務にしたがってコンピュータ読み取り可能な媒体は電気キャリア信号と通信信号を含まない。

【0128】

なお、前述した各方法の実施例に対して、説明の便宜上、一連の動作の組み合わせとして説明したが、本願によれば、いくつかのステップは他の順序にしたり、同時に行ったりしてもよいので、本願は説明した動作の順序に制限されないことは、当業者が理解すべきである。次に、明細書に説明した実施例が好ましい実施例であり、かかる動作とモジュールが本願に必ずしも必要ではないことは、当業者が理解すべきである。

【0129】

以上の実施例において、各実施例の説明はそれぞれ強調されるものがあり、一実施例に詳しく説明しなかった部分については、他の実施例の関連説明を参照すればよい。

【0130】

以上開示した本願の好ましい実施例は、本願の説明を補助するものに過ぎない。任意選択的な実施例は、全部の詳細が記載されているわけではなく、本出願を前記実施形態に制限するものでもない。無論、明細書の内容に応じて、多くの修正及び変形を行うことが可能である。本願の原理と実際的な応用をより明確に説明して、当業者を本願をより十分に理解し利用させるために、本明細書はこれらの実施例を選出して具体的に説明する。本願は、請求の範囲とその全ての内容及び同等なもののみによって制限される。

【図1】