特許7164252 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ▲騰▼▲訊▼科技（深▲セン▼）有限公司の特許一覧

特許7164252画像処理方法、装置、電子機器及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-10-24

(45)【発行日】2022-11-01

(54)【発明の名称】画像処理方法、装置、電子機器及びコンピュータプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20221025BHJP

【ＦＩ】

G06T7/00 350C

【請求項の数】 15

(21)【出願番号】P 2021564175

(86)(22)【出願日】2020-09-16

(65)【公表番号】

(43)【公表日】2022-07-01

(86)【国際出願番号】 CN2020115559

(87)【国際公開番号】W WO2021052358

(87)【国際公開日】2021-03-25

【審査請求日】2021-10-27

(31)【優先権主張番号】201910872478.6

(32)【優先日】2019-09-16

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】517392436

【氏名又は名称】▲騰▼▲訊▼科技（深▲セン▼）有限公司

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100150197

【弁理士】

【氏名又は名称】松尾直樹

(72)【発明者】

【氏名】柯磊

(72)【発明者】

【氏名】裴文杰

(72)【発明者】

【氏名】李睿宇

(72)【発明者】

【氏名】沈小勇

(72)【発明者】

【氏名】戴宇▲榮▼

(72)【発明者】

【氏名】▲賈▼ 佳▲亞▼

【審査官】真木健彦

(56)【参考文献】

【文献】特開２０１９－１３５６３６（ＪＰ，Ａ）

【文献】特開２０１８－１０１３１７（ＪＰ，Ａ）

【文献】特表２０１６－５３９６６４（ＪＰ，Ａ）

【文献】特開２０１３－０２１４８２（ＪＰ，Ａ）

【文献】特開２０１２－０４２９９０（ＪＰ，Ａ）

【文献】特開２００６－１１３７７６（ＪＰ，Ａ）

【文献】高里盛良 Seira Takasato，ニューラルキャプション生成モデルによる画像説明文の選択 Selecting Image Descriptions with Neural Image Caption Generation Models，言語処理学会第２２回年次大会発表論文集［ｏｎｌｉｎｅ］ Proceedings of the Twenty-second Annual Meeting of the Association for Natural Language Processing，日本，言語処理学会，2016年02月29日，P.103-106

【文献】吉井和輝，顕著性マップを用いた画像の説明文自動生成，２０１６年度人工知能学会全国大会（第３０回）論文集，日本，一般社団法人人工知能学会，2016年06月09日，4K1-5，P.1-4

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｔ１／００

Ｇ０６Ｎ３／００

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

１つ以上のコンピューティング機器によって実行される画像処理方法であって、
入力画像を取得し、前記入力画像における各画像領域の領域特徴を抽出して第１の画像特徴を取得するステップと、
予め設定されたルールに従い、前記第１の画像特徴における画素を処理し、処理された画素に基づいて第２の画像特徴を特定するステップと、
前記第２の画像特徴と前記入力画像に対して特定された少なくとも１つの単語ベクトルとに基づいて、前記第１の画像特徴における前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定し、前記単語ベクトルのテキスト説明における位置を予測するとともに、前記単語ベクトルと前記位置とに基づいて、前記入力画像に対応するテキスト説明を生成するステップと、
を含む方法。

【請求項2】

前記入力画像における各画像領域の領域特徴を抽出して第１の画像特徴を取得するステップは、
前記入力画像を分割して、複数の前記画像領域を形成するステップと、
符号化ネットワークモデルによって、前記画像領域におけるオブジェクトに対して特徴抽出を行い、前記画像領域におけるオブジェクトに対応する領域特徴を取得するステップと、
前記領域特徴に基づいて前記第１の画像特徴を形成するステップと、
を含む、請求項１に記載の方法。

【請求項3】

前記第２の画像特徴と前記入力画像に対して特定された少なくとも１つの単語ベクトルとに基づいて、異なる時点で、前記第１の画像特徴における、前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定するステップは、
反射復号ネットワークモデルによって、前記第２の画像特徴と前記入力画像に対して特定された少なくとも１つの単語ベクトルとに基づいて、異なる時点で、前記第１の画像特徴における前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定するステップ、を含む、請求項１または２に記載の方法。

【請求項4】

前記反射復号ネットワークモデルは、順次に配列された複数の反射復号サブネットワークを含み、
前記反射復号ネットワークモデルによって、前記第２の画像特徴と前記入力画像に対して特定された少なくとも１つの単語ベクトルとに基づいて、異なる時点で、前記第１の画像特徴における、前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定するステップは、
前記第２の画像特徴とＭ番目の反射復号サブネットワークから出力された単語ベクトルをＭ＋１番目の反射復号サブネットワークに入力するステップと、
前記Ｍ＋１番目の反射復号サブネットワークによって、前記第１の画像特徴における対象領域特徴に対応する単語ベクトルを特定するステップであって、ここで、Ｍは正の整数であるステップと、
を含む、請求項３に記載の方法。

【請求項5】

前記反射復号ネットワークモデルによって、前記第２の画像特徴と前記入力画像に対して特定された少なくとも１つの単語ベクトルとに基づいて、異なる時点で、前記第１の画像特徴における、前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定するステップは、
前記第２の画像特徴と開始単語ベクトルを第１の反射復号サブネットワークに入力し、前記第１の反射復号サブネットワークによって、前記第２の画像特徴及び前記開始単語ベクトルに基づいて、前記第１の画像特徴における対象領域特徴に対応する単語ベクトルを特定するステップであって、前記開始単語ベクトルは前記テキスト説明の開始マークであるステップ、
を含む、請求項３に記載の方法。

【請求項6】

前記反射復号サブネットワークは、
現時点で、前記反射復号サブネットワークから出力された単語ベクトルの前記テキスト説明における相対的な位置を予測するための反射型位置モジュール
を備える、請求項４に記載の方法。

【請求項7】

前記反射復号サブネットワークは、第１の長短期記憶ネットワーク、第２の長短期記憶ネットワーク及び注意機構ネットワークを含む視覚注意モジュールをさらに備え、
ここで、前記Ｍ＋１番目の反射復号サブネットワークによって、前記第１の画像特徴における対象領域特徴に対応する単語ベクトルを特定するステップは、
前時点で前記Ｍ＋１番目の反射復号サブネットワークから出力された単語ベクトルを第１の重み行列に掛けて目標単語ベクトルを取得するステップと、
前記第１の長短期記憶ネットワークによって、前記第２の画像特徴及び前記目標単語ベクトルに対して特徴抽出を行い、前記第１の長短期記憶ネットワークの第１の隠れ状態を特定するステップと、
前記第１の隠れ状態及び前記第１の画像特徴を前記注意機構ネットワークに入力して視覚的マッチングを行い、対象領域特徴を取得するステップと、
前記第２の長短期記憶ネットワークによって、前記第１の隠れ状態及び前記対象領域特徴に対して特徴抽出を行い、前記第２の長短期記憶ネットワークの第２の隠れ状態を特定するステップと、
前記第１の隠れ状態及び前記第２の隠れ状態に基づいて、前記対象領域特徴に対応する単語ベクトルを特定するステップと、
を含む、請求項４に記載の方法。

【請求項8】

前記反射復号サブネットワークは、反射型注意モジュールをさらに備え、
ここで、前記第１の隠れ状態及び前記第２の隠れ状態に基づいて、前記対象領域特徴に対応する単語ベクトルを特定するステップは、
前記反射型注意モジュールによって、過去時点における第２の隠れ状態と、現時点における前記第１の隠れ状態及び前記第２の隠れ状態に基づいて、現時点で対象領域特徴に対応する第３の出力情報を特定するステップと、
前記第３の出力情報を第３の重み行列に掛けて、前記対象領域特徴に対応する単語ベクトルを取得するステップと、
を含む、請求項７に記載の方法。

【請求項9】

現時点で対象領域特徴に対応する第３の出力情報を特定するステップは、
すべての前記過去時点における第２の隠れ状態と、前記現時点における第２の隠れ状態に基づいて、目標行列を特定するステップと、
前記目標行列に対して次元削減処理を行い、第１の特徴情報を取得するとともに、前記現時点における第１の隠れ状態に対して次元削減処理を行い、第２の特徴情報を取得するステップであって、前記第１の特徴情報と前記第２の特徴情報は次元数が同じであるステップと、
注意機構に基づいて前記第１の特徴情報と前記第２の特徴情報を加算して、第３の特徴情報を取得するステップと、
前記第３の特徴情報に重み処理及び正規化処理を施して、第２の重み行列を取得するステップと、
前記第１の特徴情報を前記第２の重み行列に掛けて積和を求めて、第３の出力情報を取得するステップと、
を含む、請求項８に記載の方法。

【請求項10】

入力画像を取得する前に、前記方法は、さらに、
画像サンプルと前記画像サンプルに対応するテキスト説明サンプルを取得するステップと、
前記画像サンプルと前記テキスト説明サンプルにより、トレーニングすべき反射復号ネットワークモデルに対応する損失関数が最小となるように、前記トレーニングすべき反射復号ネットワークモデルをトレーニングするステップとを含み、
ここで、前記損失関数は、クロスエントロピー損失関数及び位置知覚損失関数を含む、請求項３に記載の方法。

【請求項11】

前記クロスエントロピー損失関数は、前記トレーニングすべき反射復号ネットワークによって生成された前記画像サンプルに対応するテキスト説明が正しい確率であり、
前記位置知覚損失関数は、現時点で前記トレーニングすべき反射復号ネットワークによって出力された単語ベクトルのテキスト説明サンプルにおける実位置と予測位置との間の距離である、請求項１０に記載の方法。

【請求項12】

前記位置知覚損失関数に対応する位置知覚損失は、反射型位置モジュールによって特定され、
前記方法は、さらに、
全結合層によって、反射型注意モジュールから出力された特徴を全結合させることにより、全結合情報を生成するステップと、
予め設定された圧縮関数に従い前記全結合情報を圧縮して、前記反射型注意モジュールの出力特徴に対応する単語ベクトルの予測位置を取得するステップと、
前記予測位置と、前記反射型注意モジュールの出力特徴に対応する単語ベクトルの前記テキスト説明サンプルにおける実位置とに基づいて、前記位置知覚損失を特定するステップと、
を含む、請求項１１に記載の方法。

【請求項13】

入力画像を取得し、前記入力画像における各画像領域の領域特徴を抽出して第１の画像特徴を取得する特徴抽出モジュールと、
予め設定されたルールに従い、前記第１の画像特徴における画素を処理し、処理された画素に基づいて第２の画像特徴を特定する特徴変換モジュールと、
前記第２の画像特徴と前記入力画像に対して特定された少なくとも１つの単語ベクトルとに基づいて、前記第１の画像特徴における、前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定し、前記単語ベクトルのテキスト説明における位置を予測するとともに、前記単語ベクトルと前記位置とに基づいて、前記入力画像に対応するテキスト説明を生成する説明生成モジュールと、
を備える、画像処理装置。

【請求項14】

１つ以上のプロセッサと、
１つ以上のプログラムを記憶するための記憶装置とを備え、
１つ以上のプログラムが前記１つ以上のプロセッサによって実行されると、請求項１～１２のいずれか１項に記載の画像処理方法を前記１つ以上のプロセッサに実現させる、電子機器。

【請求項15】

コンピュータプログラムであって、１つ以上のプロセッサによって実行され、請求項１～１２のいずれか１項に記載の画像処理方法が実現される、
ことを特徴とするコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、２０１９年０９月１６日に中国専利局へ提出された、出願番号を２０１９１０８７２４７８．６、発明の名称を「画像処理方法、装置および電子機器」とする中国特許出願に対する優先権の利益を主張し、その内容全体が援用により本明細書に組み込まれる。

【0002】

本開示は、人工知能の技術分野に関し、具体的には、画像処理方法、画像説明生成装置および電子機器に関する。

【背景技術】

【0003】

画像説明の生成は、写真の意味を表現できる自然言語説明を生成するための分析研究であり、幅広くて適用される可能性がある。例えば、画像からテキスト説明を生成することにより、視覚障害者は画像の内容を速やかかつ正確に理解することができる。また幼児教育の分野では、子供向けの画像から直感的かつ正確な説明文を生成することで、幼児の啓発学習などに役立つことが可能になる。

【0004】

画像認識や機械翻訳におけるニューラルネットワーク利活用の成功をきっかけに、ニューラルネットワークモデルに基づく画像テキスト説明を生成する方法が既に多く存在している。従来より、画像説明の生成は、主に畳み込みニューラルネットワークを利用して画像コードを固定ベクトルで表現し、そして回帰型ニューラルネットワークを直接利用して内容を説明する語句に復号するように行われてきた。しかし、従来の復号モデルが比較的に簡単であるから、語句が長かったり、構文が複雑になったりする場合において復号効果が著しく低下してしまう。

【0005】

なお、前記背景技術に開示された情報は、ただ本開示の背景に対する理解を強めるために利用されるだけであるので、当業者に知られている先行技術を構成しない情報を含み得る。

【発明の概要】

【発明が解決しようとする課題】

【0006】

本開示の実施態様は、画像処理方法、画像処理装置および電子機器を提供する。これにより、少なくともある程度で画像に含まれる自然言語情報を正確かつ効果的に抽出しながら、より正確かつ流暢なテキスト説明を生成することができる。

【課題を解決するための手段】

【0007】

本開示の他の特徴および利点は、以下の詳細な説明から明らかになるか、または本開示の実施を通じて部分的に学習されるであろう。

【0008】

本開示の一実施形態によれば、入力画像を取得し、前記入力画像内の各画像領域に含まれている対象を符号化して、第１の画像特徴を取得するステップと、予め設定されたルールに従い、前記第１の画像特徴における画素を処理し、処理された画素に基づいて第２の画像特徴を特定するステップと、前記第２の画像特徴と開始単語ベクトルとに基づいて、異なる時点で、前記第１の画像特徴における前記各画像領域に対応する領域特徴を復号して、前記各画像領域に対応する単語ベクトルを取得するとともに、前記単語ベクトルに基づいて、前記入力画像に対応するテキスト説明を生成するステップとを含む画像処理方法が提供される。ここで、前記開始単語ベクトルは前記テキスト説明の開始マークである。

【0009】

本開示の一実施形態によれば、入力画像を取得し、前記入力画像内の各画像領域に含まれている対象を符号化して、第１の画像特徴を取得する特徴抽出モジュールと、予め設定されたルールに従い、前記第１の画像特徴における画素を処理し、処理された画素に基づいて第２の画像特徴を特定する特徴変換モジュールと、前記第２の画像特徴と開始単語ベクトルとに基づいて、異なる時点で、前記第１の画像特徴における前記各画像領域に対応する領域特徴を復号して、前記各画像領域に対応する単語ベクトルを取得するとともに、前記単語ベクトルに基づいて、前記入力画像に対応するテキスト説明を生成する説明生成モジュールとを備える画像処理装置が提供される。ここで、前記開始単語ベクトルは前記テキスト説明の開始マークである。

【0010】

本開示の技術案は、復号ネットワークモデルを用いて入力画像に対応する画像特徴を復号することによって、入力画像に含まれる自然言語情報をより正確かつ効果的に抽出することができる一方、語句が長かったり、構文が複雑になったりする場合においても復号ネットワークモデルが適用されるようになるため、テキスト説明の正確性及び流暢性を向上させることが期待できる。

【0011】

以上の一般的な説明及び以下の詳細な説明は、例示的及び解釈的なものに過ぎず、本開示を制限するものではないことが理解されるべきであろう。

【図面の簡単な説明】

【0012】

以下に示す図面は本明細書に組み込まれ本明細書の一部分を構成し、本開示による実施形態を示し、本明細書と共に本開示の原理を説明するために使用される。明らかなように、以下に示す図面は、本開示の幾つかの実施形態に過ぎず、当業者は進歩性に値する労働を付することなく、これらの図面に基づいて他の図面を得ることをもできる。これらの図面において、

【0013】

【図1】本開示の実施形態に係る技術案を適用できる例示的なシステムアーキテクチャを示す概略図である。

【図2】関連技術における画像処理方法のフローチャートである。

【図3】本開示の一実施形態による画像処理方法のフローチャートである。

【図4】本開示の一実施形態による反射復号ネットワークモデルの構成を示す概略図である。

【図5】本開示の一実施形態による視覚注意モジュールの構成を示す概略図である。

【図6】本開示の一実施形態による視覚注意モジュールの処理手順を示すフローチャートである。

【図7】本開示の一実施形態による画像処理のフローチャートである。

【図8】本開示の一実施形態による反射型注意モジュールの処理手順を示すフローチャートである。

【図9】本開示の一実施形態による反射型注意モジュールの構成を示す概略図である。

【図10】本開示の一実施形態による反射位置モジュールにより位置知覚損失を特定する手順を示すフローチャートである。

【図11】本開示の一実施形態による画像処理装置のブロック図である。

【図12】本開示の実施形態による画像処理装置を実現するのに好適なコンピュータシステムの構成を示す概略図である。

【発明を実施するための形態】

【0014】

ここで、図面を参照しながら、例示的な実施形態についてより全面的に説明する。しかしながら、例示的な実施形態は、様々な形態で実施することができ、かつ本明細書に記載の実施例に限定されると解釈されるべきではない。逆に、これらの実施形態の提供は、本開示をより包括的かつ完全にし、例示的な実施形態の構想を当業者に全面的に伝えることができる。

【0015】

また、ここに記載されている特徴、構成または特性は、１つまたは複数の実施形態において、任意の適切な方法で結合され得る。以下の記述では、本開示の実施形態を十分に理解するために、具体的な詳細記載が多く提供される。しかしながら、本開示の技術案が１つまたは複数の特定の詳細なしで実施し得るか、または他の方法、構成要素、装置、ステップなどが使用され得ることは、当業者に認識されるであろう。他の場合には、本開示の各側面と混乱させるのを回避するために、公知の方法、装置、実現または操作を詳細に示さないかまたは記載しないことにする。

【0016】

添付の図面に示されているブロック図は単なる機能実体であり、必ずしも物理的に独立した実体に対応しているとは限らない。すなわち、これらの機能実体は、ソフトウェアの形で実現されるか、１つまたは複数のハードウェアモジュールまたは集積回路において実現されるか、または異なるネットワークおよび／またはプロセッサデバイスおよび／またはマイクロコントローラデバイスにおいて実現されることができる。

【0017】

図面に示されているフローチャートは単なる例示的な説明であり、必ずしもすべての内容および操作／ステップを含むわけではなく、また説明される順序で実行される必要もない。例えば、一部の操作／ステップを分解したり、一部の操作／ステップを組み合わせたり、部分的に組み合わせたりすることができるため、実際の実行順序は実際の状況によって変更される場合がある。

【0018】

図１は、本開示の実施形態に係る技術案を適用できる例示的なシステムアーキテクチャを示す概略図である。

【0019】

図１に示すように、システムアーキテクチャ１００は、端末デバイス１０１、ネットワーク１０２及びサーバ１０３を備える。ネットワーク１０２は、端末デバイス１０１とサーバ１０３との間に通信リンクを提供するための媒体として機能している。ネットワーク１０２は、有線通信リンクや無線通信リンクなど種々の接続タイプを含み得る。

【0020】

図１における端末デバイス、ネットワーク及びサーバの数は、単なる例示的なものであることが理解されるべきであろう。実際のニーズに応じて、任意数の端末デバイス、ネットワーク及びサーバを備えることができる。例えば、サーバ１０３は複数のサーバからなるサーバクラスターであり得る。

【0021】

本開示の一実施形態では、端末デバイス１０１は、ネットワーク１０２を介して画像をサーバ１０３に送信し、サーバ１０３によって入力画像を取得後、まず入力画像を分割して複数の画像領域を形成するとともに、符号化ネットワークモデルによって各画像領域におけるオブジェクトに対して特徴抽出を行い、各画像領域に対応する領域特徴を取得し、さらに各画像領域に対応する領域特徴に基づいて、入力画像に対応する第１の画像特徴を取得する。次に、予め設定されたルールに従い、第１の画像特徴における画素を処理し、処理された画素に基づいて第２の画像特徴を特定する；そして、第１の画像特徴、第２の画像特徴及び開始単語ベクトルを反射復号ネットワークモデルに入力し、反射復号ネットワークモデルによって第１の画像特徴を復号して、各画像領域に対応する単語ベクトルを取得し、さらに各画像領域に対応する単語ベクトルに基づいて、入力画像に対応するテキスト説明を生成する。本開示の実施形態に係る技術案によれば、語句が長かったり、構文が複雑になったりする場合でのモデルの性能が確保され得るので、画像中に含まれる自然言語情報がより正確且つ効果的に抽出され、より正確且つ流暢なテキスト説明が生成されるようになる。

【0022】

なお、本開示の実施形態から提供される画像処理方法は、通常、サーバによって実行され、相応に、画像処理装置は、通常、サーバに内蔵されている。しかし、本開示の別の実施形態では、本開示の実施形態から提供される画像処理方法は、端末デバイスによっても実行され得る。

【0023】

当分野の関連技術では、画像のテキスト説明は、主に符号化・復号化フレームを介して生成される。図２は、関連技術における画像処理方法のフローチャートを示している。図２に示すように、画像２０１を符号化ネットワークモデル２０２に入力する。この符号化ネットワークモデル２０２は、ＦａｓｔｅｒＲ－ＣＮＮネットワークとＲｅｓＮｅｔ－１０１ネットワークを含み、ＦａｓｔｅｒＲ－ＣＮＮネットワークを介して入力画像の特徴抽出を行えば、入力画像内の各オブジェクトに対応する局所特徴情報が得られ、またＲｅｓＮｅｔ－１０１ネットワークを介して入力画像の特徴抽出を行えば、入力画像に対応する全体特徴情報が得られる。続いて、局所特徴情報及び全体特徴情報を復号ネットワークモデル２０３に入力する。この復号ネットワークモデル２０３は、複数の重複するネットワーク構造を含み、当該ネットワーク構造は、注意機構付き回帰型ニューラルネットワークである。具体的には、当該全体特徴情報を第１層ＬＳＴＭに入力し、第１層ＬＳＴＭを介して全体特徴情報の特徴抽出を実行し、第１の隠れ状態を出力する。次に、当該第１の隠れ状態及び局所特徴情報を注意機構ネットワーク層に入力し、注意機構ネットワーク層を介して混合特徴を出力する；その後、第２層ＬＳＴＭを介して当該混合特徴及び第１の隠れ状態を共同で処理し、第２の隠れ状態を出力する。最後に、第２の隠れ状態に対してｓｏｆｔｍａｘ処理を行い、予測された単語ベクトルを取得する。

【0024】

図２に示す画像説明生成アルゴリズムは良好な効果を達成できるが、まだ制限が掛けられている。具体的には、モデルの効果を向上させるために考えられる方法として、より代表的な微細粒度が単一のオブジェクトレベルまで分離された画像特徴を抽出するしかできず、言語モデルそれ自体への注目が無視されている。また復号モデルが比較的簡単であるため、語句が長かったり、構文が複雑になったりするなどの場合において、モデルの復号効果が著しく低下してしまう。

【0025】

本開示の実施形態は、人工知能の分野に関する画像処理方法を提供する。人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ＡＩ）は、デジタルコンピュータまたはデジタルコンピュータによって制御される機器を利用し、人間の知能をシミュレート、延伸、拡充し、環境を感知し、知識を獲得し、知識を利活用して最良の結果を得るための理論、方法、技術およびアプリケーションシステムである。言い換えれば、人工知能はコンピュータサイエンスの包括的な技術であり、知能の本質を理解し、人間の知能と似た方式で反応できる新しいインテリジェントマシンを生み出すことを目指している。人工知能は、即ち様々なインテリジェントマシンの設計原理や実現方法について研究し、マシンに感知、推論及び意思決定の機能を持たせるような技術である。

【0026】

人工知能技術は、幅広い分野をカバーする包括的な分野であり、ハードウェアレベルの技術とソフトウェアレベルの技術の両方を含む。人工知能の基本的な技術には、一般的に、センサ、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、オペレーティング／インタラクティブシステム、メカトロニクスなどの技術が含まれている。人工知能のソフトウェア技術には、主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習／深層学習が含まれている。

【0027】

コンピュータビジョン（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，ＣＶ）とは、マシンが「見る」方法を研究する技術であり、より詳しく言えば、カメラ及びコンピュータを利用し、ターゲットに対して識別、追跡及び測定などのマシンビジョンを行い、そして画像処理を施し、コンピュータに、人目が観察したり機器に送信したりするのにより適合する画像に処理させる技術を指す。科学科目の一つとして、コンピュータビジョンは関連の理論と技術を研究し、画像や多次元データから情報を取得できる人工知能システムを構築するように目指している。コンピュータビジョン技術には、通常、画像処理、画像認識、画像意味解析、画像検索、ＯＣＲ、ビデオ処理、ビデオ意味解析、ビデオコンテンツ／動作認識、３次元オブジェクト再構築、３Ｄ技術、仮想現実、拡張現実、同期測位及び地図構築などが含まれ、さらには一般的な顔認識、指紋認識などの生体認証技術も含まれている。

【0028】

機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，ＭＬ）は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑理論など様々な分野に跨る学科であり、人間の学習行動をシミュレートまたは実現する方法に特化し、新しい知識やスキールを学習し、既存の知識構造を再編成して自身のパフォーマンスを改善し続けることを目指している。機械学習は人工知能の中核であり、コンピュータをインテリジェントにするための根本的な手法であり、人工知能の各分野に幅広く適用されている。機械学習と深層学習には、通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納学習、教示学習（Ｌｅａｒｎｉｎｇｆｒｏｍｉｎｓｔｒｕｃｔｉｏｎ）などの技術が含まれている。

【0029】

人工知能技術の研究と進捗に伴い、人工知能技術に対する研究及び利活用は、例えば、通常のスマートホーム、スマートウェアラブルデバイス、仮想アシスタント、スマートスピーカー、スマートマーケティング、無人運転、自動運転、ドローン、ロボット、スマートメディカル、スマートカスタマーサービスなど多くの分野で進められてきた。技術の発展に伴い、人工知能技術はより多くの分野に適用され、ますます重要な役割を発揮することが見込まれている。

【0030】

本開示の実施形態に係る技術案は、人工知能による画像意味解析技術に関する。具体的に以下の実施形態を参照しながら説明する。

【0031】

本開示の実施形態では、まず、幼児教育、画像検索及び視覚障害者誘導などの分野に適用され得る画像処理方法が提案される。以下にて、本開示の実施形態に係る技術案の詳細な実施について詳しく説明する。

【0032】

図３は、本開示の一実施形態による画像処理方法のフローチャートである。当該画像処理方法は、１つ以上のコンピューティング機器によって実行され得る。当該１つ以上のコンピューティング機器は、図１に示すような端末デバイス１０１および／またはサーバ１０３であり得る。図３を参照して、当該画像処理方法は、少なくともステップＳ３１０～ステップＳ３３０を含む。

【0033】

ステップＳ３１０において、入力画像を取得し、前記入力画像内の各画像領域に含まれている対象を符号化して、第１の画像特徴を取得する。

【0034】

本開示の一実施形態では、当該入力画像は、ネットワークからダウンロードされた画像、または端末デバイス１０１にローカルに格納された画像、またはユーザがカメラ、ビデオカメラ、スマートフォンなど撮影手段を有する端末を介して取得した画像であり得る。テキスト説明を生成する必要がある画像を特定後、端末装置１０１を介してサーバ１０３に送信することができる。さらに、当該端末装置１０１は、本開示の実施形態に特に限定されないが、スマートフォン、ラップトップコンピュータやデスクトップコンピュータなど表示画面を備えた任意の端末装置であってもよい。

【0035】

本開示の一実施形態では、入力画像を受信後、当該入力画像を分割して複数の画像領域を形成することができる。ここで、入力画像を分割する際に、画素数ごとに分割するか、または画像中の異なる対象ごとに分割することができる。入力画像を分割して複数の画像領域を形成後、各画像領域における対象を符号化し、即ち特徴抽出を行うことができる。例えば、ある写真に映っているシーンは、庭でゴムボールを跳ねさせる子供である例を挙げると、当該画像におけるオブジェクトは、子供、ゴムボール及び芝生であり、写真に写っている空や鳥などの背景は無視されてもよく、背景に対する特徴抽出は不要になる。各画像領域におけるオブジェクトを符号化する際に、例えばＦａｓｔｅｒＲ－ＣＮＮ、ＲｅｓＮｅｔ、ＶＧＧなどのネットワーク構造を符号化ネットワークモデルとして使用し、当該符号化ネットワークモデルによって、各画像領域におけるオブジェクトから特徴抽出を行い、各画像領域に対応する領域特徴を取得することができる。当該領域特徴は、本質的に、画像領域に対応する固定ベクトルの表現である。さらに、各画像領域に対応する領域特徴に基づいて、入力画像に対応する第１の画像特徴を取得することができる。

【0036】

ステップＳ３２０において、予め設定されたルールに従い、前記第１の画像特徴における画素を処理し、処理された画素に基づいて第２の画像特徴を特定する。

【0037】

本開示の一実施形態では、入力画像における各画像領域から特徴抽出を行い、第１の画像特徴を取得後、第１の画像特徴における各画素の画素値に基づいて、第２の画像特徴における画素値を特定できる。具体的には、第１の画像特徴におけるすべての画素の画素平均値を算出し、当該画素平均値を第２の画像特長における各画素の画素値とすることができる。反射復号ネットワークモデルは第２の画像特徴及び開始単語ベクトルに基づいて第１の画像特徴を復号し、第１の画像特徴における各画像領域に対応する単語ベクトルを予測することができるように、当該第２の画像特徴は入力特徴として反射復号ネットワークモデルに入力され得る。ここで、本開示の実施形態における開始単語ベクトルは、実質的な意味のない任意の文字でもよく、例えば、＃などの開始マーク符号、またはＢＮなどの開始マーク単語であり得るが、本開示の実施形態ではこれを具体的に限定しない。

【0038】

ステップＳ３３０において、前記第２の画像特徴と開始単語ベクトルに基づいて、前記第１の画像特徴における前記各画像領域に対応する領域特徴を復号して、前記各画像領域に対応する単語ベクトルを取得するとともに、前記単語ベクトルに基づいて、前記入力画像に対応するテキスト説明を生成する。ここで、前記開始単語ベクトルは、前記テキスト説明の開始マークである。

【0039】

ステップＳ３３０において、異なる時点で前記第１の画像特徴における前記各画像領域に対応する領域特徴を復号するとともに、先に復号された領域特徴を利用して現在の領域特徴を復号することができる。

【0040】

本開示の一実施形態では、第２の画像特徴を取得後、当該第２の画像特徴を入力特徴として反射復号ネットワークモデルに入力し、また異なる時点で、第１の画像特徴における各画像領域に対応する領域特徴を復号し、各画像領域に対応する単語ベクトルを取得するように、開始単語ベクトルを当該反射復号ネットワークモデルに入力することもできる。

【0041】

図４は反射復号ネットワークモデルの構成を示す概略図である。図４に示すように、反射復号ネットワークモデルは、順次に配列された複数の反射復号サブネットワークを含む。各反射復号サブネットワークは、異なる時点で、それぞれに第１の画像特徴における各画像領域に対応する領域特徴を復号し、各画像領域に対応する単語ベクトルを取得する。第１の反射復号サブネットワークに対して、第２の画像特徴及び開始単語ベクトルを入力特徴として入力し、第１の反射復号サブネットワークによって、第２の画像特徴及び開始単語ベクトルに基づいて第１の画像特徴における対象領域特徴を復号し、対象領域特徴に対応する単語ベクトルを取得することができる。Ｍ＋１番目の反射復号サブネットワークに対して、第２の画像特徴及びＭ番目の反射復号サブネットワークから出力された単語ベクトルをＭ＋１番目の反射復号サブネットワークに入力し、Ｍ＋１番目の反射復号サブネットワークによって第１の画像特徴における対象領域特徴を復号し、対象領域特徴に対応する単語ベクトルを取得することができる。ここで、Ｍは正の整数である。

【0042】

本開示の実施形態に係る方法は、
入力画像を取得し、前記入力画像における各画像領域の領域特徴を抽出して第１の画像特徴を取得するステップと、
予め設定されたルールに従い、前記第１の画像特徴における画素を処理し、処理された画素に基づいて第２の画像特徴を特定するステップと、
前記第２の画像特徴と前記入力画像に対して特定された少なくとも１つの単語ベクトルとに基づいて、異なる時点で、前記第１の画像特徴における前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定し、前記単語ベクトルのテキスト説明における位置を予測するとともに、前記単語ベクトルと前記位置とに基づいて、前記入力画像に対応するテキスト説明を生成するステップとを含み得る。

【0043】

本開示の一実施形態では、各反射復号サブネットワークは同じ構造を有し、何れも視覚注意モジュール、反射型注意モジュールＲＡＭ（ＲｅｆｌｅｃｔｉｖｅＡｔｔｅｎｔｉｏｎＭｏｄｕｌｅ）および反射型位置モジュールＲＰＭ（ＲｅｆｌｅｃｔｉｖｅＰｏｓｉｔｉｏｎＭｏｄｕｌｅ）の三部分を備える。視覚注意モジュールは、主に符号化ネットワークモデルの視覚的特徴に注目する。反射型注意モジュールは、視覚注意モジュールの出力情報をもとに、テキスト注意機構を利用して、現時点及び過去時点における当該視覚注意モジュールの出力情報の一致度をモデル化し、コンテキストベクトルを取得し、現時点の単語を生成し、これにより、包括的な履歴語彙情報をより多くキャプチャできるようにする。反射型位置モジュールは、生成されたテキスト説明における各単語の相対的な位置情報を導入し、反射復号ネットワークモデルで語彙を予測すると同時に、テキスト説明における現在語彙の相対的な位置を予測することができるため、反射復号ネットワークモデルに語句の構文構造を認識させるのに寄与する。

【0044】

図５は、視覚注意モジュールの構成を示す概略図である。図５に示されるように、視覚注意モジュール５００は、第１の長短期記憶ネットワーク（ＬＳＴＭ－１）５０１、第２の長短期記憶ネットワーク（ＬＳＴＭ－２）５０２及び注意機構ネットワーク（Ａｔｔｖｉｓ）５０３を含む。第１の長短期記憶ネットワーク５０１は、第２の画像特徴と前時刻に取得された単語ベクトルに基づいて特徴抽出を実行する。第２の長短期記憶ネットワーク５０２は、第１の長短期記憶ネットワーク５０１の出力情報と、注意機構ネットワーク５０３の出力情報に基づいて特徴抽出を実行する。注意機構ネットワーク５０３は、第１の画像特徴と第１の長短期記憶ネットワーク５０１の出力情報に基づいて特徴抽出を実行する。

【0045】

さらに、図６は、視覚注意モジュールの処理手順を示すフローチャートである。理解の便宜上、本開示の実施形態では、ｔ番目の反射復号サブネットワークにおける視覚注意モジュールの処理手順を例として取り上げる。図６に示されるように、視覚注意モジュールの処理手順は、少なくともステップＳ６０１～Ｓ６０４を含む。具体的には以下の通りである。

【0046】

ステップＳ６０１において、前時点で反射復号サブネットワークから出力された単語ベクトルを第１の重み行列に掛けて、目標単語ベクトルを取得する。

【0047】

本開示の一実施形態では、図７は、画像処理のフローチャートを示している。図７に示されるように、ＬＳＴＭ－１の場合、第１の画像特徴に基づいて特定された第２の画像特徴

【数1】

及び前時点で反射復号サブネットワークによって出力された単語ベクトルは、ＬＳＴＭ－１の入力特徴である。入力された単語ベクトルの次元数がＬＳＴＭ－１によって処理されたデータの次元数と同じになることを確保するために、各反射復号サブネットワークに入力した単語ベクトル特徴に対して次元調整を行うことができ、具体的には、入力した単語ベクトル特徴Ｏｔ（ｔ＝１，．．．，Ｔ）に第１の重み行列Ｗｅを掛けて、目標単語ベクトルを取得し、入力特徴Ｏｔの次元変化を実現することができる。但し、当該第１の重み行列Ｗｅは各入力特徴Ｏｔに対して共有されるため、モデルをトレーニングする際に、第１の重み行列Ｗｅに対して１つのパラメータでトレーニングすればよい。

【0048】

ステップＳ６０２において、第１の長短期記憶ネットワークによって、第２の画像特徴及び目標単語ベクトルに対して特徴抽出を行い、第１の出力情報を取得する。

【0049】

本開示の一実施形態では、第２の画像特徴と目標単語ベクトルがＬＳＴＭ－１に入力された後、ＬＳＴＭ－１は、目標単語ベクトルと第２の画像特徴を処理して、第１の出力情報を出力する。この第１の出力情報は、実際に、ＬＳＴＭ－１によって出力される隠れ状態（Ｈｉｄｄｅｎｓｔａｔｅ）、例えば図７に示している

【数2】

である。

【0050】

ステップＳ６０３において、第１の出力情報及び第１の画像特徴を注意機構ネットワークに入力して視覚的マッチングを行い、対象領域特徴を取得する。

【0051】

本開示の一実施形態では、注意機構は、人間の視覚に似ているように、全体情報の一部だけに選択的に注目し、他の可視化情報を無視することができる。反射復号ネットワークモデルによる復号に先立って、ＦａｓｔｅｒＲ－ＣＮＮなどの畳み込みニューラルネットワークを利用して入力画像から特徴抽出を行い、第１の画像特徴｛ｒｉ｝（ｉ＝１，…，ｋ）を取得し、そして、ＬＳＴＭ－１から出力された第１の出力情報を取得すると、第１の出力情報と第１の画像特徴を同時に注意機構ネットワークに入力し、注意機構ネットワークＡｔｔｖｉｓを利用して第１の出力情報と第１の画像特徴に対して視覚的マッチングを行い、第１の画像特徴における各領域特徴と第１の出力情報との一致度を特定し、最後に、一致度が最も高いと判断された領域特徴、例えば図７に示されている

【数3】

を対象領域特徴として注意機構ネットワークから出力させることができる。

【0052】

ステップＳ６０４において、第２の長短期記憶ネットワークによって、第１の出力情報及び対象領域特徴に対して特徴抽出を行い、第２の出力情報を取得する。

【0053】

本開示の一実施形態では、対象領域特徴が取得された後、当該対象領域特徴および第１の出力情報が入力特徴としてＬＳＴＭ－２に入力され、ＬＳＴＭ－２は第１の出力情報および対象領域特徴に対して特徴抽出を行い、対象領域特徴に対応する第２の出力情報を取得することができる。この第２の出力情報はＬＳＴＭ－２によって出力された隠れ状態、例えば図７に示されている

【数4】

である。なお、他の回帰型ニューラルネットワークを使用して本開示の実施形態におけるＬＳＴＭを置き換えることもでき、かつさらには、異なるタイプの回帰型ニューラルネットワークを使用して、本開示の実施形態におけるＬＳＴＭ－１およびＬＳＴＭ－２を置き換えることができる。しかし、長短期記憶ネットワーク（ＬＳＴＭ，ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）は時間回帰型ニューラルネットワークであり、時系列において間隔及び遅延が比較的に長い重要なイベントを処理・予測するに適するので、語彙を更に精度よく予測し、流暢なテキスト説明を生成するために、本開示の実施形態における画像処理方法は、主にＬＳＴＭを利用して語彙の予測を行うとされている。

【0054】

その後、いくつかの実施形態では、前記第１の隠れ状態および第２の隠れ状態に基づいて、前記対象領域特徴に対応する単語ベクトルを特定することができる。

【0055】

本開示の一実施形態では、語句が長い場合、または構文がより複雑である場合、復号効果を向上させるために、本開示の実施形態では、まず、反射型注意モジュールによってテキスト注意機構を駆使して現時点の隠れ状態と過去時点の隠れ状態をマッチングさせることが提案されている。図７に示すように、ｔ番目の反射復号サブネットワークにおける反射型注意モジュールＲＡＭの場合は、対応するＬＳＴＭ－２から出力された第２の出力情報に加えて、１～（ｔ－１）番目の反射復号サブネットワークにおいてＬＳＴＭ－２から出力された第２の出力情報および対応するＬＳＴＭ－１から出力された第１の出力情報をさらに受信し、過去時点における第２の出力情報と、現時点における第１の出力情報および第２の出力情報に従って、現時点で対象領域特徴に対応する第３の出力情報を特定する。

【0056】

図８は、反射型注意モジュールの処理手順を示すフローチャートである。図８に示されているように、当該処理手順は、少なくともステップＳ８０１～Ｓ８０５を含み、具体的には以下の通りである。

【0057】

ステップＳ８０１において、すべての過去時点における第２の出力情報と、現時点における第２の出力情報に基づいて、目標行列を特定する。

【0058】

本開示の一実施形態では、図９は、反射型注意モジュールの構成を示す概略図である。図９に示されているように、左上にある円柱体は第２の出力情報を表す。過去時点における第２の出力情報

【数5】

と現時点における第２の出力情報

【数6】

とで、相応する次元数を有する目標行列が構成され、例えば１０００×１の目標行列が構成される。

【0059】

ステップＳ８０２において、目標行列に対して次元削減処理を行い、第１の特徴情報を取得するとともに、現時点における第１の出力情報に対して次元削減処理を行い、第２の特徴情報を取得する。ここで、第１の特徴情報と第２の特徴情報とは、次元数が同じである。

【0060】

本開示の一実施形態では、計算効率を向上させるために、目標行列及び現時点における第１の出力情報を次元削減処理して、それぞれに、同じ次元数の第１の特徴情報と第２の特徴情報を取得することができる。図９に示すように、目標行列、現時点における第１の出力情報をそれぞれ５１２次元の重み行列に掛けて、目標行列の次元数と第１の出力情報の次元数を１０００次元から５１２次元まで削減できるので、処理効率を大幅に向上させることが可能になる。

【0061】

ステップＳ８０３において、注意機構に基づいて第１の特徴情報と第２の特徴情報を加算して第３の特徴情報を取得する。

【0062】

本開示の一実施形態では、テキスト注意機構に基づいて、第１の特徴情報および第２の特徴情報に対して相応する処理を施すことができる。例えば、図９に示されているＡｔｔｒｅｆにおいて、具体的に第１の特徴情報および第２の特徴情報を加算することができ、もちろん、その他の具体的な処理方法を利用することもできるが、本開示の実施形態では特に限定されない。第１の特徴情報と第２の特徴情報を加算すれば、過去時点の隠れ状態と現時点の隠れ状態を組み合わせた第３の特徴情報を求めることができる。

【0063】

ステップＳ８０４において、第３の特徴情報に重み処理及び正規化処理を施して、第２の重み行列を取得する。

【0064】

本開示の一実施形態では、第３の特徴情報を取得後、当該第３の特徴情報を反射注意重みＷｒに掛けて、第１の特徴行列を得ることができる。当該特徴行列に含まれる情報の数は、目標行列における第２の出力情報の数と同じであり、いずれもｔ個である。続いて、特徴行列にｓｏｆｔｍａｘ処理、即ち正規化処理を行い、全体情報に対する各情報の比率を算出し、各第２の出力情報に対応する比率により、第２の重み行列を特定することができる。

【0065】

ステップＳ８０５において、第１の特徴情報を第２の重み行列に掛けて積和を求めて、第３の出力情報を取得する。

【0066】

本開示の一実施形態では、すべての第２の出力情報に対応する第２の重み行列を取得後、すべての第２の出力情報に従って特定された第１の特徴情報を当該第２の重み行列に掛けて積和を求めて、第３の出力情報、例えば図９に示されている右側の円柱体

【数7】

を得ることができる。

【0067】

本開示の一実施形態では、反射型注意モジュールから出力された第３の出力情報を取得後、第３の出力情報を第３の重み行列Ｗｓに掛けて、対象領域特徴

【数8】

に対応する単語ベクトル、例えば図７に示されているＳｔを取得することができる。なお、ｔ時点に出力された単語ベクトルＳｔは、ｔ＋ｔ時点での入力ベクトルＯｔ＋１である。

【0068】

本開示の一実施形態では、図７に示すように、反射型注意モジュールから第３の出力情報が出力されると、当該第３の出力情報が反射位置モジュールに同時に入力される。当該反射位置モジュールは、第３の出力情報に基づいて、現時点で出力された単語ベクトルのテキスト説明における相対的な位置を予測することができる。具体的には、反射位置モジュールには、全結合層と圧縮層が含まれている。第３の出力情報が反射位置モジュールに入力された後、まず、全結合層を介して全結合され、５１２×１次元の

【数9】

が１×１次元のベクトルに変換された後、続いて全結合層から出力されたベクトルが、対応する圧縮関数に従って圧縮層で圧縮され、相対的な位置が求められる。当該圧縮層の出力結果は０～１の間の数値であり、テキスト説明における単語ベクトルの位置を表す。例えば、テキスト説明は１０要素の単語を含む語句であり、圧縮層によって出力された数値は０．６であると想定された場合、当該語句におけるｔ番目の反射復号サブネットワークによって出力された単語ベクトルＳｔの位置は６番目である。

【0069】

本開示の一実施形態では、反射復号ネットワークモデルにおいて順次配列された反射復号サブネットワークによって、第１の画像特徴内の各画像領域に対応する領域特徴を復号し、文末に句読点があったら単語ベクトルの生成を停止し、各画像領域に対応する単語ベクトル｛Ｓ，Ｓ２，…，ＳＴ｝を取得後、これらの単語ベクトルを順番に連結して、入力画像に対応するテキスト説明とすることができる。

【0070】

本開示の一実施形態では、反射復号ネットワークモデルによって第１の画像特徴に対して語彙予測を行いテキスト説明を生成する前に、反射復号ネットワークモデルをトレーニングする必要がある。具体的には、まず、画像サンプルと画像サンプルに対応するテキスト説明サンプルを取得し、次に画像サンプルをトレーニングすべき反射復号ネットワークモデルに入力して相応するテキスト説明を生成し、トレーニングすべき反射復号ネットワークモデルに対応する損失関数が最小となるように、生成されたテキスト説明と対応するテキスト説明サンプルとの一致度に基づいてモデルパラメータを調整する。本開示の実施形態では、反射復号ネットワークモデルの損失関数は、クロスエントロピー損失関数および位置知覚損失関数の両方を含む。クロスエントロピー損失関数は、トレーニングすべき反射復号ネットワークによって生成された画像サンプルに対応するテキスト説明が正しい確率であり、位置知覚損失関数は、現時点でトレーニングすべき反射復号ネットワークによって出力された単語ベクトルのテキスト説明サンプルにおける実位置と予測位置との間の距離である。

【0071】

本開示の一実施形態では、反射復号ネットワークモデルの損失関数を最小化するために、クロスエントロピー損失関数を最大化しつつ、位置知覚損失関数を最小化する必要がある。ここで、クロスエントロピー損失関数は、下記式（１）に従って求められる。具体的には、次のとおりである。

【0072】

【数10】

【0073】

式中、Ｉは入力画像であり、θは前記実施形態におけるＷｅ、Ｗｓ、Ｗｒなどの重み行列を含む反射復号ネットワークモデル用のパラメータであり、Ｓは入力画像に対応する可変長の正しいテキスト説明であり、任意の語句を表すことができる。

【0074】

テキスト説明Ｓ内のいずれの単語ベクトルは、それに隣接する前の単語ベクトルに依存するため、チェーンルールに従い、文構成用単語ベクトルＳ１、Ｓ２、…、ＳＴ上の同時確率分布をモデル化して表現することができる。さらに、上記式（１）に基づいて、クロスエントロピー損失関数Ｌｘｅは下記式（２）に示されていると特定される。

【0075】

【数11】

【0076】

式中、Ｎは生成されたテキスト記述に含まれる語彙数であり、Ｓｔはｔ時刻で生成された単語ベクトルを表す。

【0077】

トレーニング段階では、（Ｓ，Ｉ）はトレーニング用の画像語句ペアであり、式（２）における対数確率の和は、確率的勾配降下法（ＳＧＤ）によって最適化できる。

【0078】

本開示の一実施形態では、位置知覚損失（Ｐｏｓｉｔｉｏｎ－ＰｅｒｅｐｔｉｖｅＬｏｓｓ）は、反射位置モジュールによって特定され得る。図１０は、反射位置モジュールにより位置知覚損失を特定する手順を示すフローチャートである。図１０に示すように、反射型注意モジュールによって出力された第３の出力情報を全結合層で全結合させ、全結合情報を生成する。この全結合情報は１×１のベクトルであってもよい。そして、圧縮層に対応する予め設定された圧縮関数に従って全結合情報を圧縮し、第３の出力情報に対応する単語ベクトルの予測位置、すなわち予測された単語ベクトルのテキスト説明における相対的な位置

【数12】

を取得する。最後に、予測位置と、第３の出力情報に対応する単語ベクトルのテキスト説明サンプルにおける実位置とに基づいて位置知覚損失を特定する。ここで、語句における語彙の実位置

【数13】

は、テキスト説明サンプルに含まれる語彙数と、対象領域特徴に対応する語彙のテキスト説明における位置によって求められ、これによって、実位置

【数14】

と相対的な位置

【数15】

とで位置知覚損失Ｌｐｏｓが特定され得る。具体的な計算方法は、下記式（３）に示される通りである。

【0079】

【数16】

【0080】

式中、

【数17】

および

【数18】

は、それぞれ現時点での単語ベクトルの語句における実位置と、予測された相対的な位置を表し、Ｌｐｏｓを最小化することによって両者間の距離を縮めることができる。

【0081】

さらに、クロスエントロピー損失と位置知覚損失を取得後、反射復号ネットワークモデルに対応する損失関数の大きさは、次の式（４）に従って求められる。具体的には以下の通りである。

【0082】

Ｌ＝Ｌ_ｘｅ＋λＬ_ｐｏｓ（４）

【0083】

式中、パラメータλは、反射復号ネットワークモデル全体の最適化プロセスにおける損失関数の役割を平衡化するために使用され、実際のニーズに応じて設定され得るが、本開示の実施形態では特に限定されない。

【0084】

続いて、視覚障害者誘導を例に取り上げて、本開示の実施形態に係る技術案について説明する。視覚障害者にスマート眼鏡や携帯型スマートカメラなどのスマートデバイスが着用され、視覚障害者の移動中に、前方の道路の画像をリアルタイムで撮影することができる。次に、スマートデバイスに搭載されている画像説明装置を介して画像解析し、対応するテキスト説明を生成し、さらに、このテキスト説明を対応する音声出力デバイスを介して出力させて、視覚障害者に道路状況をリアルタイムで認識させ、障害物を回避させるようにすることができる。例えば、視覚障害者は交差点まで歩く時点で、赤信号灯が点滅すると、スマートデバイスの画像取得ユニットは、信号灯、横断歩道、車両通過状況を含む画像を取得でき、当該画像における信号灯、横断歩道、車両を符号化して第１の画像特徴を取得する。次に、第１の画像特徴におけるすべての画素の画素平均値に従って第２の画像特徴を特定する；そして、第１の画像特徴、第２の画像特徴および開始単語ベクトルを反射復号ネットワークモデルに入力し、反射復号ネットワークモデルにおける反射復号サブネットワークによって、画像における信号灯、横断歩道、車両に対してテキスト予測を順番に行い、例えば信号灯から「信号灯、赤信号灯」を出力し、横断歩道から「横断歩道、車両あり、歩行者なし」などの情報を出力し、最後に、各画像領域に対応する単語ベクトルに基づいて、「信号灯が赤であり、横断歩道上に車両があり、歩行者は通行できない」というテキスト説明を生成することができる。このテキスト説明を視覚障害者にリアルタイムで送信して、信号が青になると通行するように提示することができる。

【0085】

また、幼児教育を例に挙げると、子供は絵本を読むと、色々な画像に惹かれるようになる。子供が絵を見ると、絵本に搭載されている撮影装置でこの絵を取得し、画像処理ユニットに入力して対応するテキスト説明を生成する。これ以外に、絵本の各ページにある絵を事前に記憶することもでき、子供があるページの絵を見ると、そのページの絵が画像処理ユニットに入力され、対応するテキスト説明が生成される。例えば、絵本のあるページに、山腹で草を食っている子羊が映っている絵を例に挙げると、画像処理ユニットはこの絵を分割し、各画像領域におけるオブジェクトを符号化して、第１の画像特徴を取得する。次に、第１の画像特徴における全ての画素に対して平均値を求めるとともに、全ての画素の画素値を画素平均値に置き換えて第２の画像特徴を形成する。その後、第１の画像特徴、第２の画像特徴及び開始単語ベクトルを反射復号ネットワークモデルに入力し、反射復号ネットワークモデルによって、コンテキストベクトルに従って現時点での単語を生成し、現時点での単語の語句における相対的な位置を予測する。例えば、反射型注意モデルによって、１匹、子羊、山腹、草を食っているという単語ベクトルを順番に生成し、これらの単語ベクトルに基づいて、「子羊が丘の中腹で草を食っている」という最終的なテキスト説明を生成することができる。子供が絵を見ているとき、当該テキスト説明が音声出力ユニットを介して再生されることにより、絵の内容を理解し、物事への認知力を深めるのに役立つことができる。

【0086】

本開示における画像処理方法は、符号化ネットワークモデルによって符号化された第１の画像特徴を反射復号ネットワークモデルで復号し、現時点の隠れ状態と過去時点の隠れ状態を反射型注意モジュールでマッチングさせ、コンテキストベクトルを得て現時点での単語ベクトルを生成するとともに、現時点での単語ベクトルのテキスト説明における相対的な位置を反射位置モジュールで予測することにより、語句前後の関連性および時系列ロジックが強められ、言語モデルの復号能力がより一層向上され、語句が長くまたは複雑な場合でのモデルパフォーマンスの安定性が確保されるため、より自然的かつ正確な画像テキスト説明が生成されることが可能になる。

【0087】

なお、本開示の実施形態は、主に長短期時系列モジュールの復号入力部を対象とし、反射型注意モジュールおよび反射位置モジュールを導入することによって改良されるが、他の強化学習、畳み込みニューラルネットワーク、および生成的対立ネットワーク技術に対して、また本開示における反射型注意モジュールおよび反射位置モジュールを利用して改善し、さらに画像説明の生成品質を向上させることができる。

【0088】

以下にて、本開示の前記実施形態における画像処理方法を実行するために使用され得る、本開示の装置実施形態について説明する。本開示の装置に関する実施形態に開示されていない詳細については、本開示の前記画像処理方法に関する実施形態を参照されたい。

【0089】

図１１は、本開示の一実施形態による画像処理装置のブロック図である。

【0090】

図１１を参照すると、本開示の一実施形態による画像処理装置１１００は、特徴抽出モジュール１１０１、特徴変換モジュール１１０２、および説明生成モジュール１１０３を備える。

【0091】

中では、特徴抽出モジュール１１０１は、入力画像を取得し、前記入力画像内の各画像領域に含まれているオブジェクトを符号化して、第１の画像特徴を取得するものである。特徴変換モジュール１１０２は、予め設定されたルールに従い、前記第１の画像特徴における画素を処理し、処理された画素に基づいて第２の画像特徴を特定するものである。説明生成モジュール１１０３は、前記第２の画像特徴と開始単語ベクトルとに基づいて、異なる時点で、前記第１の画像特徴における前記各画像領域に対応する領域特徴を復号して、前記各画像領域に対応する単語ベクトルを取得するとともに、前記単語ベクトルに基づいて、前記入力画像に対応するテキスト説明を生成するものであり、前記開始単語ベクトルは、前記テキスト説明の開始マークである。

【0092】

本開示の一実施形態では、前記特徴抽出モジュール１１０１は、前記入力画像を分割して複数の前記画像領域を形成し、符号化ネットワークモデルを介して前記画像領域内のオブジェクトに対して特徴抽出を行い前記画像領域に対応する領域特徴を取得し、前記領域特徴に基づいて前記第１の画像特徴を形成するように構成されている。

【0093】

本開示の一実施形態では、前記特徴変換モジュール１１０２は、前記第１の画像特徴におけるすべての画素の画素平均値を取得し、前記画素平均値をそれぞれの前記画素の画素値として使用し、前記第２の画像特徴を形成するように構成されている。

【0094】

本開示の一実施形態では、説明生成モジュール１１０３は、反射復号ネットワークモデルによって前記第２の画像特徴及び開始単語ベクトルに基づいて、異なる時点で、前記第１の画像特徴における各々の前記画像領域に対応する領域特徴を復号し、各々の前記画像領域に対応する単語ベクトルを取得するように構成されている。

【0095】

本開示の一実施形態では、前記反射復号ネットワークモデルは、順次に配列された複数の反射復号サブネットワークを含む。前記説明生成モジュール１１０３は、前記第２の画像特徴及びＭ番目の反射復号サブネットワークから出力された単語ベクトルをＭ＋１番目の反射復号サブネットワークに入力し、前記Ｍ＋１番目の反射復号サブネットワークによって前記第１の画像特徴内の対象領域特徴を復号し、前記対象領域特徴に対応する単語ベクトルを取得するように構成されている。ここで、Ｍは正の整数である。

【0096】

本開示の一実施形態では、前記説明生成モジュール１１０３は、前記第２の画像特徴及び前記開始単語ベクトルを第１の反射復号サブネットワークに入力し、前記第１の反射復号サブネットワークによって前記第１の画像特徴内の対象領域特徴を復号し、前記対象領域特徴に対応する単語ベクトルを取得するように構成されている。

【0097】

本開示の一実施形態では、前記反射復号サブネットワークは、視覚注意モジュール、反射型注意モジュールおよび反射型位置モジュールを備え、前記反射型位置モジュールは、現時点で前記反射復号サブネットワークから出力された単語ベクトルの前記テキスト説明における相対的な位置を予測するものである。

【0098】

本開示の一実施形態では、前記視覚注意モジュールは、第１の長短期記憶ネットワーク、第２の長短期記憶ネットワークおよび注意機構ネットワークを含む。前記画像処理装置１１００は、前時点で前記反射復号サブネットワークから出力された単語ベクトルを第１の重み行列に掛けて目標単語ベクトルを取得し、前記第１の長短期記憶ネットワークによって、前記第２の画像特徴及び前記目標単語ベクトルに対して特徴抽出を行い、第１の出力情報を取得し、前記第１の出力情報及び前記第１の画像特徴を前記注意機構ネットワークに入力して視覚的マッチングを行い、対象領域特徴を取得し、前記第２の長短期記憶ネットワークによって、前記第１の出力情報及び前記目標領域特徴に対して特徴抽出を行い、第２の出力情報を取得するように構成されている。

【0099】

本開示の一実施形態では、前記画像処理装置１１００は、さらに、前記反射型注意モジュールによって過去時点における前記第２の出力情報と、現時点における前記第１の出力情報及び前記第２の出力情報に基づいて、現時点で対象領域特徴に対応する第３の出力情報を特定する単語ベクトル生成モジュールを備える。

【0100】

本開示の一実施形態では、前記単語ベクトル生成モジュールは、すべての前記過去時点における第２の出力情報と、前記現時点における第２の出力情報に基づいて、目標行列を特定し、前記目標行列に対して次元削減処理を行い、第１の特徴情報を取得するとともに、前記現時点における第１の出力情報に対して次元削減処理を行い、第２の特徴情報を取得し、ここで、前記第１の特徴情報と前記第２の特徴情報は次元数が同じであり、注意機構に基づいて前記第１の特徴情報と前記第２の特徴情報を加算して、第３の特徴情報を取得し、前記第３の特徴情報に重み処理及び正規化処理を施して、第２の重み行列を取得し、前記第１の特徴情報を前記第２の重み行列に掛けて積和を求めて、前記第３の出力情報を取得するように構成されている。

【0101】

本開示の一実施形態では、前記説明生成モジュール１１０３は、前記第３の出力情報を第３の重み行列に掛けて、前期対象領域特徴に対応する単語ベクトルを取得するように構成されている。

【0102】

本開示の一実施形態では、画像処理装置１１００は、さらに、画像サンプルと前記画像サンプルに対応するテキスト説明サンプルを取得するサンプル取得モジュールと、前記画像サンプルと前記テキスト説明サンプルにより、トレーニングすべき反射復号ネットワークモデルに対応する損失関数が最小となるように、前記トレーニングすべき反射復号ネットワークモデルをトレーニングするモデルトレーニングモジュールとを備える。ここで、前記損失関数は、クロスエントロピー損失関数及び位置知覚損失関数を含む。

【0103】

本開示の一実施形態では、前記クロスエントロピー損失関数は、前記トレーニングすべき反射復号ネットワークによって生成された前記画像サンプルに対応するテキスト説明が正しい確率であり、前記位置知覚損失関数は、現時点で前記トレーニングすべき反射復号ネットワークによって出力された単語ベクトルのテキスト説明サンプルにおける実位置と予測位置との間の距離である。

【0104】

本開示の一実施形態では、前記位置知覚損失関数に対応する位置知覚損失は、前記反射型位置モジュールによって特定されている。前記画像処理装置１１００は、全結合層によって、前記反射型注意モジュールから出力された特徴を全結合させることにより、全結合情報を生成し、予め設定された圧縮関数に従い前記全結合情報を圧縮して、前記反射型注意モジュールの出力特徴に対応する単語ベクトルの予測位置を取得し、前記予測位置と、前記反射型注意モジュールの出力特徴に対応する単語ベクトルの前記テキスト説明サンプルにおける実位置とに基づいて、前記位置知覚損失を特定するように構成されている。

【0105】

図１２は、本開示の実施形態による画像処理装置を実現するのに好適なコンピュータシステムの構成を示す概略図を示している。

【0106】

なお、図１２に示されている電子機器のコンピュータシステム１２００は例示的なものに過ぎず、本開示の実施形態の機能または使用の範囲に関していかなる制限を示唆することを意図しない。

【0107】

図１２に示すように、コンピュータシステム１２００は、中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＣＰＵ）１２０１を含み、これは、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ，ＲＯＭ）１２０２に格納されたプログラム、またはストレージパーツ１２０８からランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ，ＲＡＭ）１２０３にロードされたプログラムに従って、種々の適切な動作及び処理を実行し、前記実施形態に係る画像処理方法を実現することができる。ＲＡＭ１２０３には、システムオペレーションを行うのに必要な各種のプログラムやデータも格納されている。ＣＰＵ１２０１、ＲＯＭ１２０２およびＲＡＭ１２０３は、バス１２０４を介して相互に接続されている。入力／出力（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ，Ｉ／Ｏ）インターフェース１２０５もバス１２０４に接続されている。

【0108】

Ｉ／Ｏインターフェース１２０５に接続されているコンポーネントは、以下の部材：キーボード、マウスなどを含む入力部分１２０６；カソード光線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ＣＲＴ）、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ，ＬＣＤ）およびスピーカー等を含む出力部分１２０７；ハードディスク等を含む記憶部１２０８；およびＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ，ローカルエリアネットワーク）カード、モデム等のネットワークインターフェースカードを含む通信部１２０９である。通信部１２９０は、インターネットなどのネットワークを介して通信処理を行う。ドライバ１２１０はまた、必要に応じてＩ／Ｏインターフェース１２０５に接続されている。必要に応じて、磁気ディスク、光ディスク、磁気光学ディスク、半導体メモリなどの取り外し可能な媒体１２１１がドライブ１２１０に取り付けられ、結果として、そこから読み取られたコンピュータプログラムが必要に応じて記憶部１２０８にインストールされるようになる。

【0109】

特に、本開示の一実施形態によれば、以下にてフローチャート参照して記述するプロセスは、コンピュータソフトウェアプログラムとして実施されることができる。例えば、本開示の実施形態は、コンピュータ可読媒体上に搭載されたコンピュータプログラムを含むコンピュータプログラム製品を備え、このコンピュータプログラムには、フローチャートに示される方法を実行するためのプログラムコードが含まれている。斯様な実施形態では、このコンピュータプログラムは、通信部分１２０９を介してネットワークからダウンロードおよびインストールされ得るか、および／または取り外し可能媒体１２１１からインストールされ得る。このコンピュータプログラムが中央処理装置（ＣＰＵ）１２０１によって実行されると、本開示のシステムで定義される様々な機能が実行される。

【0110】

なお、本開示の実施形態に示されるコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、あるいは前記二者の任意の組み合わせであり得る。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁的、赤外線、または半導体システム、装置またはデバイス、あるいは上記の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読媒体のより具体的な例としては、１つまたは複数のワイヤを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ，ＥＰＲＯＭ）、フラッシュメモリ、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ，ＣＤ－ＲＯＭ）、光ストレージデバイス、磁気ストレージデバイス、または上記の任意の適切な組み合わせを含み得るが、これらに限定されない。本開示では、コンピュータ可読記憶媒体は、プログラムを含むかまたは格納する何れかの有形媒体であり得る。当該プログラムは、命令実行システム、装置またはデバイスによって、またはそれらと組み合わせて使用され得る。本開示では、コンピュータ可読信号媒体は、ベースバンド内で、またはキャリア波の一部として伝搬されるデータ信号を含み得るが、中には、コンピュータ読み取り可能なプログラムコードが搭載されている。この伝播されたデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがこれらに限定されない、種々の形態であり得る。コンピュータ可読信号媒体はまた、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であり得る。当該コンピュータ可読媒体は、命令実行システム、装置またはデバイスによって、またはそれらと組み合わせて使用されるプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれているプログラムコードは、無線、有線など、または上記の任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体によって送信され得る。

【0111】

添付の図面におけるフローチャートおよびブロック図は、本開示の各種実施形態によるシステム、方法、およびコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および操作を示している。この点に関して、フローチャートまたはブロック図における各ブロックは、１つのモジュール、プログラムセグメント、またはコードの一部を表すことができ、上記のモジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実現するための１つまたは複数の実行可能な命令が含まれている。また、一部の代替としての実現においては、ブロック内に表記された機能が、図面に表記された順序とは異なる順序で発生する場合がある点に注意されたい。例えば、続いて表示される２つのブロックは、実際にはほぼ並行して実行されてもよく、関わる機能によっては逆の順序に従い実行される場合もある。なお、ブロック図またはフローチャートにおける各ブロック、およびブロック図またはフローチャートにおけるブロックの組み合わせは、指定された機能または操作を実行する専用のハードウェアベースによるシステムによって実現され得るか、または専用のハードウェアとコンピュータの命令との組み合わせによって実現され得る。

【0112】

本開示の実施形態に記載されているユニットは、ソフトウェアまたはハードウェアに実現され得る。記載されているユニットは、またプロセッサに配置されることもできる。その中で、これらのユニットの名称は、特定の状況下でユニットそれ自体を制限するものにならない。

【0113】

別の態様として、本開示はまた、コンピュータ可読媒体をさらに提供する。当該コンピュータ可読媒体は、上記の実施形態に記載の画像処理装置に含まれ得るか、または電子デバイスに装備されることなく単独で存在され得る。前記コンピュータ可読媒体には、１つまたは複数のプログラムが搭載されている。前記１つまたは複数のプログラムが当該電子機器によって実行されると、当該電子機器は、前記実施形態に記載の方法を実現することができるようになる。

【0114】

上記の開示には、動作実行用のデバイスのいくつかのモジュールまたはユニットが詳しく記載されているが、このような区画は必須ではないことに注意されたい。実際に、本開示の実施形態によれば、上記の２つ以上のモジュールまたはユニットの特徴および機能は、１つのモジュールまたはユニットにおいて具体化され得る。逆に、上記の１つのモジュールまたはユニットの特徴および機能は、複数のモジュールまたはユニットによって具体化されるようにさらに区画され得る。

【0115】

上記の実施形態の説明を通じて、本明細書に記載の例示的な実施形態がソフトウェアによって実施でき、またはソフトウェアを必要なハードウェアとを組み合わせることによって実施できることについて、当業者であれば容易に理解され得るであろう。したがって、本開示の実施形態による技術案は、ソフトウェア製品の形で具体化され得る。このソフトウェア製品は、不揮発性記憶媒体（ＣＤ－ＲＯＭ、Ｕディスク、モバイルハードディスクであり得る）またはネットワーク上に記憶され、コンピューティングデバイス（パーソナルコンピュータ、サーバ、タッチ端末またはネットワークデバイスなど）に本開示の実施形態による方法を実行させるためのいくつかの命令を含む。

【0116】

当業者は、本明細書及びここに開示された発明を考慮した後、本開示の他の実施形態を容易に想起するであろう。本開示は、本開示の任意の変形、用途または適宜な変更をカバーすることを意図される。これらの変形、用途または適宜な変更は、本開示の一般原則に従い、本開示に開示されていない当技術分野の公知常識または慣用の技術手段を含む。

【0117】

本開示は、上記に記載され図面に示されている精確構造に限定されず、その範囲から逸脱しない限り、様々な修正や変更を行うことができると理解されるべきであろう。本開示の範囲は、添付の特許請求の範囲によってのみ制限される。

【符号の説明】

【0118】

1100 画像説明生成装置
1101 特徴抽出モジュール
1102 特徴変換モジュール
1103 説明生成モジュール
1205 インターフェース
1206 入力部
1207 出力部
1208 記憶部
1209 通信部
1210 ドライバ
1211 取り外し可能な媒体

【図1】