IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特許7164252画像処理方法、装置、電子機器及びコンピュータプログラム
<>
  • 特許-画像処理方法、装置、電子機器及びコンピュータプログラム 図1
  • 特許-画像処理方法、装置、電子機器及びコンピュータプログラム 図2
  • 特許-画像処理方法、装置、電子機器及びコンピュータプログラム 図3
  • 特許-画像処理方法、装置、電子機器及びコンピュータプログラム 図4
  • 特許-画像処理方法、装置、電子機器及びコンピュータプログラム 図5
  • 特許-画像処理方法、装置、電子機器及びコンピュータプログラム 図6
  • 特許-画像処理方法、装置、電子機器及びコンピュータプログラム 図7
  • 特許-画像処理方法、装置、電子機器及びコンピュータプログラム 図8
  • 特許-画像処理方法、装置、電子機器及びコンピュータプログラム 図9
  • 特許-画像処理方法、装置、電子機器及びコンピュータプログラム 図10
  • 特許-画像処理方法、装置、電子機器及びコンピュータプログラム 図11
  • 特許-画像処理方法、装置、電子機器及びコンピュータプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-24
(45)【発行日】2022-11-01
(54)【発明の名称】画像処理方法、装置、電子機器及びコンピュータプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221025BHJP
【FI】
G06T7/00 350C
【請求項の数】 15
(21)【出願番号】P 2021564175
(86)(22)【出願日】2020-09-16
(65)【公表番号】
(43)【公表日】2022-07-01
(86)【国際出願番号】 CN2020115559
(87)【国際公開番号】W WO2021052358
(87)【国際公開日】2021-03-25
【審査請求日】2021-10-27
(31)【優先権主張番号】201910872478.6
(32)【優先日】2019-09-16
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】柯 磊
(72)【発明者】
【氏名】裴 文杰
(72)【発明者】
【氏名】李 睿宇
(72)【発明者】
【氏名】沈 小勇
(72)【発明者】
【氏名】戴 宇▲榮▼
(72)【発明者】
【氏名】▲賈▼ 佳▲亞▼
【審査官】真木 健彦
(56)【参考文献】
【文献】特開2019-135636(JP,A)
【文献】特開2018-101317(JP,A)
【文献】特表2016-539664(JP,A)
【文献】特開2013-021482(JP,A)
【文献】特開2012-042990(JP,A)
【文献】特開2006-113776(JP,A)
【文献】高里 盛良 Seira Takasato,ニューラルキャプション生成モデルによる画像説明文の選択 Selecting Image Descriptions with Neural Image Caption Generation Models,言語処理学会第22回年次大会 発表論文集 [online] Proceedings of the Twenty-second Annual Meeting of the Association for Natural Language Processing,日本,言語処理学会,2016年02月29日,P.103-106
【文献】吉井 和輝,顕著性マップを用いた画像の説明文自動生成,2016年度 人工知能学会全国大会(第30回)論文集,日本,一般社団法人 人工知能学会,2016年06月09日,4K1-5,P.1-4
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 1/00
G06N 3/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
1つ以上のコンピューティング機器によって実行される画像処理方法であって、
入力画像を取得し、前記入力画像における各画像領域の領域特徴を抽出して第1の画像特徴を取得するステップと、
予め設定されたルールに従い、前記第1の画像特徴における画素を処理し、処理された画素に基づいて第2の画像特徴を特定するステップと、
前記第2の画像特徴と前記入力画像に対して特定された少なくとも1つの単語ベクトルとに基づいて、前記第1の画像特徴における前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定し、前記単語ベクトルのテキスト説明における位置を予測するとともに、前記単語ベクトルと前記位置とに基づいて、前記入力画像に対応するテキスト説明を生成するステップと、
を含む方法。
【請求項2】
前記入力画像における各画像領域の領域特徴を抽出して第1の画像特徴を取得するステップは、
前記入力画像を分割して、複数の前記画像領域を形成するステップと、
符号化ネットワークモデルによって、前記画像領域におけるオブジェクトに対して特徴抽出を行い、前記画像領域におけるオブジェクトに対応する領域特徴を取得するステップと、
前記領域特徴に基づいて前記第1の画像特徴を形成するステップと、
を含む、請求項1に記載の方法。
【請求項3】
前記第2の画像特徴と前記入力画像に対して特定された少なくとも1つの単語ベクトルとに基づいて、異なる時点で、前記第1の画像特徴における、前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定するステップは、
反射復号ネットワークモデルによって、前記第2の画像特徴と前記入力画像に対して特定された少なくとも1つの単語ベクトルとに基づいて、異なる時点で、前記第1の画像特徴における前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定するステップ、を含む、請求項1または2に記載の方法。
【請求項4】
前記反射復号ネットワークモデルは、順次に配列された複数の反射復号サブネットワークを含み、
前記反射復号ネットワークモデルによって、前記第2の画像特徴と前記入力画像に対して特定された少なくとも1つの単語ベクトルとに基づいて、異なる時点で、前記第1の画像特徴における、前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定するステップは、
前記第2の画像特徴とM番目の反射復号サブネットワークから出力された単語ベクトルをM+1番目の反射復号サブネットワークに入力するステップと、
前記M+1番目の反射復号サブネットワークによって、前記第1の画像特徴における対象領域特徴に対応する単語ベクトルを特定するステップであって、ここで、Mは正の整数であるステップと、
を含む、請求項3に記載の方法。
【請求項5】
前記反射復号ネットワークモデルによって、前記第2の画像特徴と前記入力画像に対して特定された少なくとも1つの単語ベクトルとに基づいて、異なる時点で、前記第1の画像特徴における、前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定するステップは、
前記第2の画像特徴と開始単語ベクトルを第1の反射復号サブネットワークに入力し、前記第1の反射復号サブネットワークによって、前記第2の画像特徴及び前記開始単語ベクトルに基づいて、前記第1の画像特徴における対象領域特徴に対応する単語ベクトルを特定するステップであって、前記開始単語ベクトルは前記テキスト説明の開始マークであるステップ、
を含む、請求項3に記載の方法。
【請求項6】
前記反射復号サブネットワークは、
現時点で、前記反射復号サブネットワークから出力された単語ベクトルの前記テキスト説明における相対的な位置を予測するための反射型位置モジュール
を備える、請求項4に記載の方法。
【請求項7】
前記反射復号サブネットワークは、第1の長短期記憶ネットワーク、第2の長短期記憶ネットワーク及び注意機構ネットワークを含む視覚注意モジュールをさらに備え、
ここで、前記M+1番目の反射復号サブネットワークによって、前記第1の画像特徴における対象領域特徴に対応する単語ベクトルを特定するステップは、
前時点で前記M+1番目の反射復号サブネットワークから出力された単語ベクトルを第1の重み行列に掛けて目標単語ベクトルを取得するステップと、
前記第1の長短期記憶ネットワークによって、前記第2の画像特徴及び前記目標単語ベクトルに対して特徴抽出を行い、前記第1の長短期記憶ネットワークの第1の隠れ状態を特定するステップと、
前記第1の隠れ状態及び前記第1の画像特徴を前記注意機構ネットワークに入力して視覚的マッチングを行い、対象領域特徴を取得するステップと、
前記第2の長短期記憶ネットワークによって、前記第1の隠れ状態及び前記対象領域特徴に対して特徴抽出を行い、前記第2の長短期記憶ネットワークの第2の隠れ状態を特定するステップと、
前記第1の隠れ状態及び前記第2の隠れ状態に基づいて、前記対象領域特徴に対応する単語ベクトルを特定するステップと、
を含む、請求項4に記載の方法。
【請求項8】
前記反射復号サブネットワークは、反射型注意モジュールをさらに備え、
ここで、前記第1の隠れ状態及び前記第2の隠れ状態に基づいて、前記対象領域特徴に対応する単語ベクトルを特定するステップは、
前記反射型注意モジュールによって、過去時点における第2の隠れ状態と、現時点における前記第1の隠れ状態及び前記第2の隠れ状態に基づいて、現時点で対象領域特徴に対応する第3の出力情報を特定するステップと、
前記第3の出力情報を第3の重み行列に掛けて、前記対象領域特徴に対応する単語ベクトルを取得するステップと、
を含む、請求項7に記載の方法。
【請求項9】
現時点で対象領域特徴に対応する第3の出力情報を特定するステップは、
すべての前記過去時点における第2の隠れ状態と、前記現時点における第2の隠れ状態に基づいて、目標行列を特定するステップと、
前記目標行列に対して次元削減処理を行い、第1の特徴情報を取得するとともに、前記現時点における第1の隠れ状態に対して次元削減処理を行い、第2の特徴情報を取得するステップであって、前記第1の特徴情報と前記第2の特徴情報は次元数が同じであるステップと、
注意機構に基づいて前記第1の特徴情報と前記第2の特徴情報を加算して、第3の特徴情報を取得するステップと、
前記第3の特徴情報に重み処理及び正規化処理を施して、第2の重み行列を取得するステップと、
前記第1の特徴情報を前記第2の重み行列に掛けて積和を求めて、第3の出力情報を取得するステップと、
を含む、請求項8に記載の方法。
【請求項10】
入力画像を取得する前に、前記方法は、さらに、
画像サンプルと前記画像サンプルに対応するテキスト説明サンプルを取得するステップと、
前記画像サンプルと前記テキスト説明サンプルにより、トレーニングすべき反射復号ネットワークモデルに対応する損失関数が最小となるように、前記トレーニングすべき反射復号ネットワークモデルをトレーニングするステップとを含み、
ここで、前記損失関数は、クロスエントロピー損失関数及び位置知覚損失関数を含む、請求項3に記載の方法。
【請求項11】
前記クロスエントロピー損失関数は、前記トレーニングすべき反射復号ネットワークによって生成された前記画像サンプルに対応するテキスト説明が正しい確率であり、
前記位置知覚損失関数は、現時点で前記トレーニングすべき反射復号ネットワークによって出力された単語ベクトルのテキスト説明サンプルにおける実位置と予測位置との間の距離である、請求項10に記載の方法。
【請求項12】
前記位置知覚損失関数に対応する位置知覚損失は、反射型位置モジュールによって特定され、
前記方法は、さらに、
全結合層によって、反射型注意モジュールから出力された特徴を全結合させることにより、全結合情報を生成するステップと、
予め設定された圧縮関数に従い前記全結合情報を圧縮して、前記反射型注意モジュールの出力特徴に対応する単語ベクトルの予測位置を取得するステップと、
前記予測位置と、前記反射型注意モジュールの出力特徴に対応する単語ベクトルの前記テキスト説明サンプルにおける実位置とに基づいて、前記位置知覚損失を特定するステップと、
を含む、請求項11に記載の方法。
【請求項13】
入力画像を取得し、前記入力画像における各画像領域の領域特徴を抽出して第1の画像特徴を取得する特徴抽出モジュールと、
予め設定されたルールに従い、前記第1の画像特徴における画素を処理し、処理された画素に基づいて第2の画像特徴を特定する特徴変換モジュールと、
前記第2の画像特徴と前記入力画像に対して特定された少なくとも1つの単語ベクトルとに基づいて、前記第1の画像特徴における、前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定し、前記単語ベクトルのテキスト説明における位置を予測するとともに、前記単語ベクトルと前記位置とに基づいて、前記入力画像に対応するテキスト説明を生成する説明生成モジュールと、
を備える、画像処理装置。
【請求項14】
1つ以上のプロセッサと、
1つ以上のプログラムを記憶するための記憶装置とを備え、
1つ以上のプログラムが前記1つ以上のプロセッサによって実行されると、請求項1~12のいずれか1項に記載の画像処理方法を前記1つ以上のプロセッサに実現させる、電子機器。
【請求項15】
コンピュータプログラムであって、1つ以上のプロセッサによって実行され、請求項1~12のいずれか1項に記載の画像処理方法が実現される、
ことを特徴とするコンピュータプログラム
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2019年09月16日に中国専利局へ提出された、出願番号を201910872478.6、発明の名称を「画像処理方法、装置および電子機器」とする中国特許出願に対する優先権の利益を主張し、その内容全体が援用により本明細書に組み込まれる。
【0002】
本開示は、人工知能の技術分野に関し、具体的には、画像処理方法、画像説明生成装置および電子機器に関する。
【背景技術】
【0003】
画像説明の生成は、写真の意味を表現できる自然言語説明を生成するための分析研究であり、幅広くて適用される可能性がある。例えば、画像からテキスト説明を生成することにより、視覚障害者は画像の内容を速やかかつ正確に理解することができる。また幼児教育の分野では、子供向けの画像から直感的かつ正確な説明文を生成することで、幼児の啓発学習などに役立つことが可能になる。
【0004】
画像認識や機械翻訳におけるニューラルネットワーク利活用の成功をきっかけに、ニューラルネットワークモデルに基づく画像テキスト説明を生成する方法が既に多く存在している。従来より、画像説明の生成は、主に畳み込みニューラルネットワークを利用して画像コードを固定ベクトルで表現し、そして回帰型ニューラルネットワークを直接利用して内容を説明する語句に復号するように行われてきた。しかし、従来の復号モデルが比較的に簡単であるから、語句が長かったり、構文が複雑になったりする場合において復号効果が著しく低下してしまう。
【0005】
なお、前記背景技術に開示された情報は、ただ本開示の背景に対する理解を強めるために利用されるだけであるので、当業者に知られている先行技術を構成しない情報を含み得る。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本開示の実施態様は、画像処理方法、画像処理装置および電子機器を提供する。これにより、少なくともある程度で画像に含まれる自然言語情報を正確かつ効果的に抽出しながら、より正確かつ流暢なテキスト説明を生成することができる。
【課題を解決するための手段】
【0007】
本開示の他の特徴および利点は、以下の詳細な説明から明らかになるか、または本開示の実施を通じて部分的に学習されるであろう。
【0008】
本開示の一実施形態によれば、入力画像を取得し、前記入力画像内の各画像領域に含まれている対象を符号化して、第1の画像特徴を取得するステップと、予め設定されたルールに従い、前記第1の画像特徴における画素を処理し、処理された画素に基づいて第2の画像特徴を特定するステップと、前記第2の画像特徴と開始単語ベクトルとに基づいて、異なる時点で、前記第1の画像特徴における前記各画像領域に対応する領域特徴を復号して、前記各画像領域に対応する単語ベクトルを取得するとともに、前記単語ベクトルに基づいて、前記入力画像に対応するテキスト説明を生成するステップとを含む画像処理方法が提供される。ここで、前記開始単語ベクトルは前記テキスト説明の開始マークである。
【0009】
本開示の一実施形態によれば、入力画像を取得し、前記入力画像内の各画像領域に含まれている対象を符号化して、第1の画像特徴を取得する特徴抽出モジュールと、予め設定されたルールに従い、前記第1の画像特徴における画素を処理し、処理された画素に基づいて第2の画像特徴を特定する特徴変換モジュールと、前記第2の画像特徴と開始単語ベクトルとに基づいて、異なる時点で、前記第1の画像特徴における前記各画像領域に対応する領域特徴を復号して、前記各画像領域に対応する単語ベクトルを取得するとともに、前記単語ベクトルに基づいて、前記入力画像に対応するテキスト説明を生成する説明生成モジュールとを備える画像処理装置が提供される。ここで、前記開始単語ベクトルは前記テキスト説明の開始マークである。
【0010】
本開示の技術案は、復号ネットワークモデルを用いて入力画像に対応する画像特徴を復号することによって、入力画像に含まれる自然言語情報をより正確かつ効果的に抽出することができる一方、語句が長かったり、構文が複雑になったりする場合においても復号ネットワークモデルが適用されるようになるため、テキスト説明の正確性及び流暢性を向上させることが期待できる。
【0011】
以上の一般的な説明及び以下の詳細な説明は、例示的及び解釈的なものに過ぎず、本開示を制限するものではないことが理解されるべきであろう。
【図面の簡単な説明】
【0012】
以下に示す図面は本明細書に組み込まれ本明細書の一部分を構成し、本開示による実施形態を示し、本明細書と共に本開示の原理を説明するために使用される。明らかなように、以下に示す図面は、本開示の幾つかの実施形態に過ぎず、当業者は進歩性に値する労働を付することなく、これらの図面に基づいて他の図面を得ることをもできる。これらの図面において、
【0013】
図1】本開示の実施形態に係る技術案を適用できる例示的なシステムアーキテクチャを示す概略図である。
図2】関連技術における画像処理方法のフローチャートである。
図3】本開示の一実施形態による画像処理方法のフローチャートである。
図4】本開示の一実施形態による反射復号ネットワークモデルの構成を示す概略図である。
図5】本開示の一実施形態による視覚注意モジュールの構成を示す概略図である。
図6】本開示の一実施形態による視覚注意モジュールの処理手順を示すフローチャートである。
図7】本開示の一実施形態による画像処理のフローチャートである。
図8】本開示の一実施形態による反射型注意モジュールの処理手順を示すフローチャートである。
図9】本開示の一実施形態による反射型注意モジュールの構成を示す概略図である。
図10】本開示の一実施形態による反射位置モジュールにより位置知覚損失を特定する手順を示すフローチャートである。
図11】本開示の一実施形態による画像処理装置のブロック図である。
図12】本開示の実施形態による画像処理装置を実現するのに好適なコンピュータシステムの構成を示す概略図である。
【発明を実施するための形態】
【0014】
ここで、図面を参照しながら、例示的な実施形態についてより全面的に説明する。しかしながら、例示的な実施形態は、様々な形態で実施することができ、かつ本明細書に記載の実施例に限定されると解釈されるべきではない。逆に、これらの実施形態の提供は、本開示をより包括的かつ完全にし、例示的な実施形態の構想を当業者に全面的に伝えることができる。
【0015】
また、ここに記載されている特徴、構成または特性は、1つまたは複数の実施形態において、任意の適切な方法で結合され得る。以下の記述では、本開示の実施形態を十分に理解するために、具体的な詳細記載が多く提供される。しかしながら、本開示の技術案が1つまたは複数の特定の詳細なしで実施し得るか、または他の方法、構成要素、装置、ステップなどが使用され得ることは、当業者に認識されるであろう。他の場合には、本開示の各側面と混乱させるのを回避するために、公知の方法、装置、実現または操作を詳細に示さないかまたは記載しないことにする。
【0016】
添付の図面に示されているブロック図は単なる機能実体であり、必ずしも物理的に独立した実体に対応しているとは限らない。すなわち、これらの機能実体は、ソフトウェアの形で実現されるか、1つまたは複数のハードウェアモジュールまたは集積回路において実現されるか、または異なるネットワークおよび/またはプロセッサデバイスおよび/またはマイクロコントローラデバイスにおいて実現されることができる。
【0017】
図面に示されているフローチャートは単なる例示的な説明であり、必ずしもすべての内容および操作/ステップを含むわけではなく、また説明される順序で実行される必要もない。例えば、一部の操作/ステップを分解したり、一部の操作/ステップを組み合わせたり、部分的に組み合わせたりすることができるため、実際の実行順序は実際の状況によって変更される場合がある。
【0018】
図1は、本開示の実施形態に係る技術案を適用できる例示的なシステムアーキテクチャを示す概略図である。
【0019】
図1に示すように、システムアーキテクチャ100は、端末デバイス101、ネットワーク102及びサーバ103を備える。ネットワーク102は、端末デバイス101とサーバ103との間に通信リンクを提供するための媒体として機能している。ネットワーク102は、有線通信リンクや無線通信リンクなど種々の接続タイプを含み得る。
【0020】
図1における端末デバイス、ネットワーク及びサーバの数は、単なる例示的なものであることが理解されるべきであろう。実際のニーズに応じて、任意数の端末デバイス、ネットワーク及びサーバを備えることができる。例えば、サーバ103は複数のサーバからなるサーバクラスターであり得る。
【0021】
本開示の一実施形態では、端末デバイス101は、ネットワーク102を介して画像をサーバ103に送信し、サーバ103によって入力画像を取得後、まず入力画像を分割して複数の画像領域を形成するとともに、符号化ネットワークモデルによって各画像領域におけるオブジェクトに対して特徴抽出を行い、各画像領域に対応する領域特徴を取得し、さらに各画像領域に対応する領域特徴に基づいて、入力画像に対応する第1の画像特徴を取得する。次に、予め設定されたルールに従い、第1の画像特徴における画素を処理し、処理された画素に基づいて第2の画像特徴を特定する;そして、第1の画像特徴、第2の画像特徴及び開始単語ベクトルを反射復号ネットワークモデルに入力し、反射復号ネットワークモデルによって第1の画像特徴を復号して、各画像領域に対応する単語ベクトルを取得し、さらに各画像領域に対応する単語ベクトルに基づいて、入力画像に対応するテキスト説明を生成する。本開示の実施形態に係る技術案によれば、語句が長かったり、構文が複雑になったりする場合でのモデルの性能が確保され得るので、画像中に含まれる自然言語情報がより正確且つ効果的に抽出され、より正確且つ流暢なテキスト説明が生成されるようになる。
【0022】
なお、本開示の実施形態から提供される画像処理方法は、通常、サーバによって実行され、相応に、画像処理装置は、通常、サーバに内蔵されている。しかし、本開示の別の実施形態では、本開示の実施形態から提供される画像処理方法は、端末デバイスによっても実行され得る。
【0023】
当分野の関連技術では、画像のテキスト説明は、主に符号化・復号化フレームを介して生成される。図2は、関連技術における画像処理方法のフローチャートを示している。図2に示すように、画像201を符号化ネットワークモデル202に入力する。この符号化ネットワークモデル202は、Faster R-CNNネットワークとResNet-101ネットワークを含み、Faster R-CNNネットワークを介して入力画像の特徴抽出を行えば、入力画像内の各オブジェクトに対応する局所特徴情報が得られ、またResNet-101ネットワークを介して入力画像の特徴抽出を行えば、入力画像に対応する全体特徴情報が得られる。続いて、局所特徴情報及び全体特徴情報を復号ネットワークモデル203に入力する。この復号ネットワークモデル203は、複数の重複するネットワーク構造を含み、当該ネットワーク構造は、注意機構付き回帰型ニューラルネットワークである。具体的には、当該全体特徴情報を第1層LSTMに入力し、第1層LSTMを介して全体特徴情報の特徴抽出を実行し、第1の隠れ状態を出力する。次に、当該第1の隠れ状態及び局所特徴情報を注意機構ネットワーク層に入力し、注意機構ネットワーク層を介して混合特徴を出力する;その後、第2層LSTMを介して当該混合特徴及び第1の隠れ状態を共同で処理し、第2の隠れ状態を出力する。最後に、第2の隠れ状態に対してsoftmax処理を行い、予測された単語ベクトルを取得する。
【0024】
図2に示す画像説明生成アルゴリズムは良好な効果を達成できるが、まだ制限が掛けられている。具体的には、モデルの効果を向上させるために考えられる方法として、より代表的な微細粒度が単一のオブジェクトレベルまで分離された画像特徴を抽出するしかできず、言語モデルそれ自体への注目が無視されている。また復号モデルが比較的簡単であるため、語句が長かったり、構文が複雑になったりするなどの場合において、モデルの復号効果が著しく低下してしまう。
【0025】
本開示の実施形態は、人工知能の分野に関する画像処理方法を提供する。人工知能(Artificial Intelligence,AI)は、デジタルコンピュータまたはデジタルコンピュータによって制御される機器を利用し、人間の知能をシミュレート、延伸、拡充し、環境を感知し、知識を獲得し、知識を利活用して最良の結果を得るための理論、方法、技術およびアプリケーションシステムである。言い換えれば、人工知能はコンピュータサイエンスの包括的な技術であり、知能の本質を理解し、人間の知能と似た方式で反応できる新しいインテリジェントマシンを生み出すことを目指している。人工知能は、即ち様々なインテリジェントマシンの設計原理や実現方法について研究し、マシンに感知、推論及び意思決定の機能を持たせるような技術である。
【0026】
人工知能技術は、幅広い分野をカバーする包括的な分野であり、ハードウェアレベルの技術とソフトウェアレベルの技術の両方を含む。人工知能の基本的な技術には、一般的に、センサ、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、オペレーティング/インタラクティブシステム、メカトロニクスなどの技術が含まれている。人工知能のソフトウェア技術には、主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習が含まれている。
【0027】
コンピュータビジョン(Computer Vision,CV)とは、マシンが「見る」方法を研究する技術であり、より詳しく言えば、カメラ及びコンピュータを利用し、ターゲットに対して識別、追跡及び測定などのマシンビジョンを行い、そして画像処理を施し、コンピュータに、人目が観察したり機器に送信したりするのにより適合する画像に処理させる技術を指す。科学科目の一つとして、コンピュータビジョンは関連の理論と技術を研究し、画像や多次元データから情報を取得できる人工知能システムを構築するように目指している。コンピュータビジョン技術には、通常、画像処理、画像認識、画像意味解析、画像検索、OCR、ビデオ処理、ビデオ意味解析、ビデオコンテンツ/動作認識、3次元オブジェクト再構築、3D技術、仮想現実、拡張現実、同期測位及び地図構築などが含まれ、さらには一般的な顔認識、指紋認識などの生体認証技術も含まれている。
【0028】
機械学習(Machine Learning,ML)は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑理論など様々な分野に跨る学科であり、人間の学習行動をシミュレートまたは実現する方法に特化し、新しい知識やスキールを学習し、既存の知識構造を再編成して自身のパフォーマンスを改善し続けることを目指している。機械学習は人工知能の中核であり、コンピュータをインテリジェントにするための根本的な手法であり、人工知能の各分野に幅広く適用されている。機械学習と深層学習には、通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納学習、教示学習(Learning from instruction)などの技術が含まれている。
【0029】
人工知能技術の研究と進捗に伴い、人工知能技術に対する研究及び利活用は、例えば、通常のスマートホーム、スマートウェアラブルデバイス、仮想アシスタント、スマートスピーカー、スマートマーケティング、無人運転、自動運転、ドローン、ロボット、スマートメディカル、スマートカスタマーサービスなど多くの分野で進められてきた。技術の発展に伴い、人工知能技術はより多くの分野に適用され、ますます重要な役割を発揮することが見込まれている。
【0030】
本開示の実施形態に係る技術案は、人工知能による画像意味解析技術に関する。具体的に以下の実施形態を参照しながら説明する。
【0031】
本開示の実施形態では、まず、幼児教育、画像検索及び視覚障害者誘導などの分野に適用され得る画像処理方法が提案される。以下にて、本開示の実施形態に係る技術案の詳細な実施について詳しく説明する。
【0032】
図3は、本開示の一実施形態による画像処理方法のフローチャートである。当該画像処理方法は、1つ以上のコンピューティング機器によって実行され得る。当該1つ以上のコンピューティング機器は、図1に示すような端末デバイス101および/またはサーバ103であり得る。図3を参照して、当該画像処理方法は、少なくともステップS310~ステップS330を含む。
【0033】
ステップS310において、入力画像を取得し、前記入力画像内の各画像領域に含まれている対象を符号化して、第1の画像特徴を取得する。
【0034】
本開示の一実施形態では、当該入力画像は、ネットワークからダウンロードされた画像、または端末デバイス101にローカルに格納された画像、またはユーザがカメラ、ビデオカメラ、スマートフォンなど撮影手段を有する端末を介して取得した画像であり得る。テキスト説明を生成する必要がある画像を特定後、端末装置101を介してサーバ103に送信することができる。さらに、当該端末装置101は、本開示の実施形態に特に限定されないが、スマートフォン、ラップトップコンピュータやデスクトップコンピュータなど表示画面を備えた任意の端末装置であってもよい。
【0035】
本開示の一実施形態では、入力画像を受信後、当該入力画像を分割して複数の画像領域を形成することができる。ここで、入力画像を分割する際に、画素数ごとに分割するか、または画像中の異なる対象ごとに分割することができる。入力画像を分割して複数の画像領域を形成後、各画像領域における対象を符号化し、即ち特徴抽出を行うことができる。例えば、ある写真に映っているシーンは、庭でゴムボールを跳ねさせる子供である例を挙げると、当該画像におけるオブジェクトは、子供、ゴムボール及び芝生であり、写真に写っている空や鳥などの背景は無視されてもよく、背景に対する特徴抽出は不要になる。各画像領域におけるオブジェクトを符号化する際に、例えばFaster R-CNN、ResNet、VGGなどのネットワーク構造を符号化ネットワークモデルとして使用し、当該符号化ネットワークモデルによって、各画像領域におけるオブジェクトから特徴抽出を行い、各画像領域に対応する領域特徴を取得することができる。当該領域特徴は、本質的に、画像領域に対応する固定ベクトルの表現である。さらに、各画像領域に対応する領域特徴に基づいて、入力画像に対応する第1の画像特徴を取得することができる。
【0036】
ステップS320において、予め設定されたルールに従い、前記第1の画像特徴における画素を処理し、処理された画素に基づいて第2の画像特徴を特定する。
【0037】
本開示の一実施形態では、入力画像における各画像領域から特徴抽出を行い、第1の画像特徴を取得後、第1の画像特徴における各画素の画素値に基づいて、第2の画像特徴における画素値を特定できる。具体的には、第1の画像特徴におけるすべての画素の画素平均値を算出し、当該画素平均値を第2の画像特長における各画素の画素値とすることができる。反射復号ネットワークモデルは第2の画像特徴及び開始単語ベクトルに基づいて第1の画像特徴を復号し、第1の画像特徴における各画像領域に対応する単語ベクトルを予測することができるように、当該第2の画像特徴は入力特徴として反射復号ネットワークモデルに入力され得る。ここで、本開示の実施形態における開始単語ベクトルは、実質的な意味のない任意の文字でもよく、例えば、#などの開始マーク符号、またはBNなどの開始マーク単語であり得るが、本開示の実施形態ではこれを具体的に限定しない。
【0038】
ステップS330において、前記第2の画像特徴と開始単語ベクトルに基づいて、前記第1の画像特徴における前記各画像領域に対応する領域特徴を復号して、前記各画像領域に対応する単語ベクトルを取得するとともに、前記単語ベクトルに基づいて、前記入力画像に対応するテキスト説明を生成する。ここで、前記開始単語ベクトルは、前記テキスト説明の開始マークである。
【0039】
ステップS330において、異なる時点で前記第1の画像特徴における前記各画像領域に対応する領域特徴を復号するとともに、先に復号された領域特徴を利用して現在の領域特徴を復号することができる。
【0040】
本開示の一実施形態では、第2の画像特徴を取得後、当該第2の画像特徴を入力特徴として反射復号ネットワークモデルに入力し、また異なる時点で、第1の画像特徴における各画像領域に対応する領域特徴を復号し、各画像領域に対応する単語ベクトルを取得するように、開始単語ベクトルを当該反射復号ネットワークモデルに入力することもできる。
【0041】
図4は反射復号ネットワークモデルの構成を示す概略図である。図4に示すように、反射復号ネットワークモデルは、順次に配列された複数の反射復号サブネットワークを含む。各反射復号サブネットワークは、異なる時点で、それぞれに第1の画像特徴における各画像領域に対応する領域特徴を復号し、各画像領域に対応する単語ベクトルを取得する。第1の反射復号サブネットワークに対して、第2の画像特徴及び開始単語ベクトルを入力特徴として入力し、第1の反射復号サブネットワークによって、第2の画像特徴及び開始単語ベクトルに基づいて第1の画像特徴における対象領域特徴を復号し、対象領域特徴に対応する単語ベクトルを取得することができる。M+1番目の反射復号サブネットワークに対して、第2の画像特徴及びM番目の反射復号サブネットワークから出力された単語ベクトルをM+1番目の反射復号サブネットワークに入力し、M+1番目の反射復号サブネットワークによって第1の画像特徴における対象領域特徴を復号し、対象領域特徴に対応する単語ベクトルを取得することができる。ここで、Mは正の整数である。
【0042】
本開示の実施形態に係る方法は、
入力画像を取得し、前記入力画像における各画像領域の領域特徴を抽出して第1の画像特徴を取得するステップと、
予め設定されたルールに従い、前記第1の画像特徴における画素を処理し、処理された画素に基づいて第2の画像特徴を特定するステップと、
前記第2の画像特徴と前記入力画像に対して特定された少なくとも1つの単語ベクトルとに基づいて、異なる時点で、前記第1の画像特徴における前記各画像領域に対応する領域特徴に対応する単語ベクトルを特定し、前記単語ベクトルのテキスト説明における位置を予測するとともに、前記単語ベクトルと前記位置とに基づいて、前記入力画像に対応するテキスト説明を生成するステップとを含み得る。
【0043】
本開示の一実施形態では、各反射復号サブネットワークは同じ構造を有し、何れも視覚注意モジュール、反射型注意モジュールRAM(Reflective Attention Module)および反射型位置モジュールRPM(Reflective Position Module)の三部分を備える。視覚注意モジュールは、主に符号化ネットワークモデルの視覚的特徴に注目する。反射型注意モジュールは、視覚注意モジュールの出力情報をもとに、テキスト注意機構を利用して、現時点及び過去時点における当該視覚注意モジュールの出力情報の一致度をモデル化し、コンテキストベクトルを取得し、現時点の単語を生成し、これにより、包括的な履歴語彙情報をより多くキャプチャできるようにする。反射型位置モジュールは、生成されたテキスト説明における各単語の相対的な位置情報を導入し、反射復号ネットワークモデルで語彙を予測すると同時に、テキスト説明における現在語彙の相対的な位置を予測することができるため、反射復号ネットワークモデルに語句の構文構造を認識させるのに寄与する。
【0044】
図5は、視覚注意モジュールの構成を示す概略図である。図5に示されるように、視覚注意モジュール500は、第1の長短期記憶ネットワーク(LSTM-1)501、第2の長短期記憶ネットワーク(LSTM-2)502及び注意機構ネットワーク(Attvis)503を含む。第1の長短期記憶ネットワーク501は、第2の画像特徴と前時刻に取得された単語ベクトルに基づいて特徴抽出を実行する。第2の長短期記憶ネットワーク502は、第1の長短期記憶ネットワーク501の出力情報と、注意機構ネットワーク503の出力情報に基づいて特徴抽出を実行する。注意機構ネットワーク503は、第1の画像特徴と第1の長短期記憶ネットワーク501の出力情報に基づいて特徴抽出を実行する。
【0045】
さらに、図6は、視覚注意モジュールの処理手順を示すフローチャートである。理解の便宜上、本開示の実施形態では、t番目の反射復号サブネットワークにおける視覚注意モジュールの処理手順を例として取り上げる。図6に示されるように、視覚注意モジュールの処理手順は、少なくともステップS601~S604を含む。具体的には以下の通りである。
【0046】
ステップS601において、前時点で反射復号サブネットワークから出力された単語ベクトルを第1の重み行列に掛けて、目標単語ベクトルを取得する。
【0047】
本開示の一実施形態では、図7は、画像処理のフローチャートを示している。図7に示されるように、LSTM-1の場合、第1の画像特徴に基づいて特定された第2の画像特徴

【数1】
及び前時点で反射復号サブネットワークによって出力された単語ベクトルは、LSTM-1の入力特徴である。入力された単語ベクトルの次元数がLSTM-1によって処理されたデータの次元数と同じになることを確保するために、各反射復号サブネットワークに入力した単語ベクトル特徴に対して次元調整を行うことができ、具体的には、入力した単語ベクトル特徴Ot(t=1,...,T)に第1の重み行列Weを掛けて、目標単語ベクトルを取得し、入力特徴Otの次元変化を実現することができる。但し、当該第1の重み行列Weは各入力特徴Otに対して共有されるため、モデルをトレーニングする際に、第1の重み行列Weに対して1つのパラメータでトレーニングすればよい。
【0048】
ステップS602において、第1の長短期記憶ネットワークによって、第2の画像特徴及び目標単語ベクトルに対して特徴抽出を行い、第1の出力情報を取得する。
【0049】
本開示の一実施形態では、第2の画像特徴と目標単語ベクトルがLSTM-1に入力された後、LSTM-1は、目標単語ベクトルと第2の画像特徴を処理して、第1の出力情報を出力する。この第1の出力情報は、実際に、LSTM-1によって出力される隠れ状態(Hidden state)、例えば図7に示している

【数2】
である。
【0050】
ステップS603において、第1の出力情報及び第1の画像特徴を注意機構ネットワークに入力して視覚的マッチングを行い、対象領域特徴を取得する。
【0051】
本開示の一実施形態では、注意機構は、人間の視覚に似ているように、全体情報の一部だけに選択的に注目し、他の可視化情報を無視することができる。反射復号ネットワークモデルによる復号に先立って、Faster R-CNNなどの畳み込みニューラルネットワークを利用して入力画像から特徴抽出を行い、第1の画像特徴{ri}(i=1,…,k)を取得し、そして、LSTM-1から出力された第1の出力情報を取得すると、第1の出力情報と第1の画像特徴を同時に注意機構ネットワークに入力し、注意機構ネットワークAttvisを利用して第1の出力情報と第1の画像特徴に対して視覚的マッチングを行い、第1の画像特徴における各領域特徴と第1の出力情報との一致度を特定し、最後に、一致度が最も高いと判断された領域特徴、例えば図7に示されている

【数3】
を対象領域特徴として注意機構ネットワークから出力させることができる。
【0052】
ステップS604において、第2の長短期記憶ネットワークによって、第1の出力情報及び対象領域特徴に対して特徴抽出を行い、第2の出力情報を取得する。
【0053】
本開示の一実施形態では、対象領域特徴が取得された後、当該対象領域特徴および第1の出力情報が入力特徴としてLSTM-2に入力され、LSTM-2は第1の出力情報および対象領域特徴に対して特徴抽出を行い、対象領域特徴に対応する第2の出力情報を取得することができる。この第2の出力情報はLSTM-2によって出力された隠れ状態、例えば図7に示されている

【数4】
である。なお、他の回帰型ニューラルネットワークを使用して本開示の実施形態におけるLSTMを置き換えることもでき、かつさらには、異なるタイプの回帰型ニューラルネットワークを使用して、本開示の実施形態におけるLSTM-1およびLSTM-2を置き換えることができる。しかし、長短期記憶ネットワーク(LSTM,Long Short-Term Memory)は時間回帰型ニューラルネットワークであり、時系列において間隔及び遅延が比較的に長い重要なイベントを処理・予測するに適するので、語彙を更に精度よく予測し、流暢なテキスト説明を生成するために、本開示の実施形態における画像処理方法は、主にLSTMを利用して語彙の予測を行うとされている。
【0054】
その後、いくつかの実施形態では、前記第1の隠れ状態および第2の隠れ状態に基づいて、前記対象領域特徴に対応する単語ベクトルを特定することができる。
【0055】
本開示の一実施形態では、語句が長い場合、または構文がより複雑である場合、復号効果を向上させるために、本開示の実施形態では、まず、反射型注意モジュールによってテキスト注意機構を駆使して現時点の隠れ状態と過去時点の隠れ状態をマッチングさせることが提案されている。図7に示すように、t番目の反射復号サブネットワークにおける反射型注意モジュールRAMの場合は、対応するLSTM-2から出力された第2の出力情報に加えて、1~(t-1)番目の反射復号サブネットワークにおいてLSTM-2から出力された第2の出力情報および対応するLSTM-1から出力された第1の出力情報をさらに受信し、過去時点における第2の出力情報と、現時点における第1の出力情報および第2の出力情報に従って、現時点で対象領域特徴に対応する第3の出力情報を特定する。
【0056】
図8は、反射型注意モジュールの処理手順を示すフローチャートである。図8に示されているように、当該処理手順は、少なくともステップS801~S805を含み、具体的には以下の通りである。
【0057】
ステップS801において、すべての過去時点における第2の出力情報と、現時点における第2の出力情報に基づいて、目標行列を特定する。
【0058】
本開示の一実施形態では、図9は、反射型注意モジュールの構成を示す概略図である。図9に示されているように、左上にある円柱体は第2の出力情報を表す。過去時点における第2の出力情報

【数5】
と現時点における第2の出力情報

【数6】
とで、相応する次元数を有する目標行列が構成され、例えば1000×1の目標行列が構成される。
【0059】
ステップS802において、目標行列に対して次元削減処理を行い、第1の特徴情報を取得するとともに、現時点における第1の出力情報に対して次元削減処理を行い、第2の特徴情報を取得する。ここで、第1の特徴情報と第2の特徴情報とは、次元数が同じである。
【0060】
本開示の一実施形態では、計算効率を向上させるために、目標行列及び現時点における第1の出力情報を次元削減処理して、それぞれに、同じ次元数の第1の特徴情報と第2の特徴情報を取得することができる。図9に示すように、目標行列、現時点における第1の出力情報をそれぞれ512次元の重み行列に掛けて、目標行列の次元数と第1の出力情報の次元数を1000次元から512次元まで削減できるので、処理効率を大幅に向上させることが可能になる。
【0061】
ステップS803において、注意機構に基づいて第1の特徴情報と第2の特徴情報を加算して第3の特徴情報を取得する。
【0062】
本開示の一実施形態では、テキスト注意機構に基づいて、第1の特徴情報および第2の特徴情報に対して相応する処理を施すことができる。例えば、図9に示されているAttrefにおいて、具体的に第1の特徴情報および第2の特徴情報を加算することができ、もちろん、その他の具体的な処理方法を利用することもできるが、本開示の実施形態では特に限定されない。第1の特徴情報と第2の特徴情報を加算すれば、過去時点の隠れ状態と現時点の隠れ状態を組み合わせた第3の特徴情報を求めることができる。
【0063】
ステップS804において、第3の特徴情報に重み処理及び正規化処理を施して、第2の重み行列を取得する。
【0064】
本開示の一実施形態では、第3の特徴情報を取得後、当該第3の特徴情報を反射注意重みWrに掛けて、第1の特徴行列を得ることができる。当該特徴行列に含まれる情報の数は、目標行列における第2の出力情報の数と同じであり、いずれもt個である。続いて、特徴行列にsoftmax処理、即ち正規化処理を行い、全体情報に対する各情報の比率を算出し、各第2の出力情報に対応する比率により、第2の重み行列を特定することができる。
【0065】
ステップS805において、第1の特徴情報を第2の重み行列に掛けて積和を求めて、第3の出力情報を取得する。
【0066】
本開示の一実施形態では、すべての第2の出力情報に対応する第2の重み行列を取得後、すべての第2の出力情報に従って特定された第1の特徴情報を当該第2の重み行列に掛けて積和を求めて、第3の出力情報、例えば図9に示されている右側の円柱体

【数7】
を得ることができる。
【0067】
本開示の一実施形態では、反射型注意モジュールから出力された第3の出力情報を取得後、第3の出力情報を第3の重み行列Wsに掛けて、対象領域特徴

【数8】
に対応する単語ベクトル、例えば図7に示されているStを取得することができる。なお、t時点に出力された単語ベクトルStは、t+t時点での入力ベクトルOt+1である。
【0068】
本開示の一実施形態では、図7に示すように、反射型注意モジュールから第3の出力情報が出力されると、当該第3の出力情報が反射位置モジュールに同時に入力される。当該反射位置モジュールは、第3の出力情報に基づいて、現時点で出力された単語ベクトルのテキスト説明における相対的な位置を予測することができる。具体的には、反射位置モジュールには、全結合層と圧縮層が含まれている。第3の出力情報が反射位置モジュールに入力された後、まず、全結合層を介して全結合され、512×1次元の

【数9】
が1×1次元のベクトルに変換された後、続いて全結合層から出力されたベクトルが、対応する圧縮関数に従って圧縮層で圧縮され、相対的な位置が求められる。当該圧縮層の出力結果は0~1の間の数値であり、テキスト説明における単語ベクトルの位置を表す。例えば、テキスト説明は10要素の単語を含む語句であり、圧縮層によって出力された数値は0.6であると想定された場合、当該語句におけるt番目の反射復号サブネットワークによって出力された単語ベクトルStの位置は6番目である。
【0069】
本開示の一実施形態では、反射復号ネットワークモデルにおいて順次配列された反射復号サブネットワークによって、第1の画像特徴内の各画像領域に対応する領域特徴を復号し、文末に句読点があったら単語ベクトルの生成を停止し、各画像領域に対応する単語ベクトル{S,S2,…,ST}を取得後、これらの単語ベクトルを順番に連結して、入力画像に対応するテキスト説明とすることができる。
【0070】
本開示の一実施形態では、反射復号ネットワークモデルによって第1の画像特徴に対して語彙予測を行いテキスト説明を生成する前に、反射復号ネットワークモデルをトレーニングする必要がある。具体的には、まず、画像サンプルと画像サンプルに対応するテキスト説明サンプルを取得し、次に画像サンプルをトレーニングすべき反射復号ネットワークモデルに入力して相応するテキスト説明を生成し、トレーニングすべき反射復号ネットワークモデルに対応する損失関数が最小となるように、生成されたテキスト説明と対応するテキスト説明サンプルとの一致度に基づいてモデルパラメータを調整する。本開示の実施形態では、反射復号ネットワークモデルの損失関数は、クロスエントロピー損失関数および位置知覚損失関数の両方を含む。クロスエントロピー損失関数は、トレーニングすべき反射復号ネットワークによって生成された画像サンプルに対応するテキスト説明が正しい確率であり、位置知覚損失関数は、現時点でトレーニングすべき反射復号ネットワークによって出力された単語ベクトルのテキスト説明サンプルにおける実位置と予測位置との間の距離である。
【0071】
本開示の一実施形態では、反射復号ネットワークモデルの損失関数を最小化するために、クロスエントロピー損失関数を最大化しつつ、位置知覚損失関数を最小化する必要がある。ここで、クロスエントロピー損失関数は、下記式(1)に従って求められる。具体的には、次のとおりである。
【0072】

【数10】
【0073】
式中、Iは入力画像であり、θは前記実施形態におけるWe、Ws、Wrなどの重み行列を含む反射復号ネットワークモデル用のパラメータであり、Sは入力画像に対応する可変長の正しいテキスト説明であり、任意の語句を表すことができる。
【0074】
テキスト説明S内のいずれの単語ベクトルは、それに隣接する前の単語ベクトルに依存するため、チェーンルールに従い、文構成用単語ベクトルS1、S2、…、ST上の同時確率分布をモデル化して表現することができる。さらに、上記式(1)に基づいて、クロスエントロピー損失関数Lxeは下記式(2)に示されていると特定される。
【0075】

【数11】
【0076】
式中、Nは生成されたテキスト記述に含まれる語彙数であり、Stはt時刻で生成された単語ベクトルを表す。
【0077】
トレーニング段階では、(S,I)はトレーニング用の画像語句ペアであり、式(2)における対数確率の和は、確率的勾配降下法(SGD)によって最適化できる。
【0078】
本開示の一実施形態では、位置知覚損失(Position-Pereptive Loss)は、反射位置モジュールによって特定され得る。図10は、反射位置モジュールにより位置知覚損失を特定する手順を示すフローチャートである。図10に示すように、反射型注意モジュールによって出力された第3の出力情報を全結合層で全結合させ、全結合情報を生成する。この全結合情報は1×1のベクトルであってもよい。そして、圧縮層に対応する予め設定された圧縮関数に従って全結合情報を圧縮し、第3の出力情報に対応する単語ベクトルの予測位置、すなわち予測された単語ベクトルのテキスト説明における相対的な位置

【数12】
を取得する。最後に、予測位置と、第3の出力情報に対応する単語ベクトルのテキスト説明サンプルにおける実位置とに基づいて位置知覚損失を特定する。ここで、語句における語彙の実位置

【数13】
は、テキスト説明サンプルに含まれる語彙数と、対象領域特徴に対応する語彙のテキスト説明における位置によって求められ、これによって、実位置

【数14】
と相対的な位置

【数15】
とで位置知覚損失Lposが特定され得る。具体的な計算方法は、下記式(3)に示される通りである。
【0079】

【数16】
【0080】
式中、

【数17】
および

【数18】
は、それぞれ現時点での単語ベクトルの語句における実位置と、予測された相対的な位置を表し、Lposを最小化することによって両者間の距離を縮めることができる。
【0081】
さらに、クロスエントロピー損失と位置知覚損失を取得後、反射復号ネットワークモデルに対応する損失関数の大きさは、次の式(4)に従って求められる。具体的には以下の通りである。
【0082】
L=Lxe+λLpos(4)
【0083】
式中、パラメータλは、反射復号ネットワークモデル全体の最適化プロセスにおける損失関数の役割を平衡化するために使用され、実際のニーズに応じて設定され得るが、本開示の実施形態では特に限定されない。
【0084】
続いて、視覚障害者誘導を例に取り上げて、本開示の実施形態に係る技術案について説明する。視覚障害者にスマート眼鏡や携帯型スマートカメラなどのスマートデバイスが着用され、視覚障害者の移動中に、前方の道路の画像をリアルタイムで撮影することができる。次に、スマートデバイスに搭載されている画像説明装置を介して画像解析し、対応するテキスト説明を生成し、さらに、このテキスト説明を対応する音声出力デバイスを介して出力させて、視覚障害者に道路状況をリアルタイムで認識させ、障害物を回避させるようにすることができる。例えば、視覚障害者は交差点まで歩く時点で、赤信号灯が点滅すると、スマートデバイスの画像取得ユニットは、信号灯、横断歩道、車両通過状況を含む画像を取得でき、当該画像における信号灯、横断歩道、車両を符号化して第1の画像特徴を取得する。次に、第1の画像特徴におけるすべての画素の画素平均値に従って第2の画像特徴を特定する;そして、第1の画像特徴、第2の画像特徴および開始単語ベクトルを反射復号ネットワークモデルに入力し、反射復号ネットワークモデルにおける反射復号サブネットワークによって、画像における信号灯、横断歩道、車両に対してテキスト予測を順番に行い、例えば信号灯から「信号灯、赤信号灯」を出力し、横断歩道から「横断歩道、車両あり、歩行者なし」などの情報を出力し、最後に、各画像領域に対応する単語ベクトルに基づいて、「信号灯が赤であり、横断歩道上に車両があり、歩行者は通行できない」というテキスト説明を生成することができる。このテキスト説明を視覚障害者にリアルタイムで送信して、信号が青になると通行するように提示することができる。
【0085】
また、幼児教育を例に挙げると、子供は絵本を読むと、色々な画像に惹かれるようになる。子供が絵を見ると、絵本に搭載されている撮影装置でこの絵を取得し、画像処理ユニットに入力して対応するテキスト説明を生成する。これ以外に、絵本の各ページにある絵を事前に記憶することもでき、子供があるページの絵を見ると、そのページの絵が画像処理ユニットに入力され、対応するテキスト説明が生成される。例えば、絵本のあるページに、山腹で草を食っている子羊が映っている絵を例に挙げると、画像処理ユニットはこの絵を分割し、各画像領域におけるオブジェクトを符号化して、第1の画像特徴を取得する。次に、第1の画像特徴における全ての画素に対して平均値を求めるとともに、全ての画素の画素値を画素平均値に置き換えて第2の画像特徴を形成する。その後、第1の画像特徴、第2の画像特徴及び開始単語ベクトルを反射復号ネットワークモデルに入力し、反射復号ネットワークモデルによって、コンテキストベクトルに従って現時点での単語を生成し、現時点での単語の語句における相対的な位置を予測する。例えば、反射型注意モデルによって、1匹、子羊、山腹、草を食っているという単語ベクトルを順番に生成し、これらの単語ベクトルに基づいて、「子羊が丘の中腹で草を食っている」という最終的なテキスト説明を生成することができる。子供が絵を見ているとき、当該テキスト説明が音声出力ユニットを介して再生されることにより、絵の内容を理解し、物事への認知力を深めるのに役立つことができる。
【0086】
本開示における画像処理方法は、符号化ネットワークモデルによって符号化された第1の画像特徴を反射復号ネットワークモデルで復号し、現時点の隠れ状態と過去時点の隠れ状態を反射型注意モジュールでマッチングさせ、コンテキストベクトルを得て現時点での単語ベクトルを生成するとともに、現時点での単語ベクトルのテキスト説明における相対的な位置を反射位置モジュールで予測することにより、語句前後の関連性および時系列ロジックが強められ、言語モデルの復号能力がより一層向上され、語句が長くまたは複雑な場合でのモデルパフォーマンスの安定性が確保されるため、より自然的かつ正確な画像テキスト説明が生成されることが可能になる。
【0087】
なお、本開示の実施形態は、主に長短期時系列モジュールの復号入力部を対象とし、反射型注意モジュールおよび反射位置モジュールを導入することによって改良されるが、他の強化学習、畳み込みニューラルネットワーク、および生成的対立ネットワーク技術に対して、また本開示における反射型注意モジュールおよび反射位置モジュールを利用して改善し、さらに画像説明の生成品質を向上させることができる。
【0088】
以下にて、本開示の前記実施形態における画像処理方法を実行するために使用され得る、本開示の装置実施形態について説明する。本開示の装置に関する実施形態に開示されていない詳細については、本開示の前記画像処理方法に関する実施形態を参照されたい。
【0089】
図11は、本開示の一実施形態による画像処理装置のブロック図である。
【0090】
図11を参照すると、本開示の一実施形態による画像処理装置1100は、特徴抽出モジュール1101、特徴変換モジュール1102、および説明生成モジュール1103を備える。
【0091】
中では、特徴抽出モジュール1101は、入力画像を取得し、前記入力画像内の各画像領域に含まれているオブジェクトを符号化して、第1の画像特徴を取得するものである。特徴変換モジュール1102は、予め設定されたルールに従い、前記第1の画像特徴における画素を処理し、処理された画素に基づいて第2の画像特徴を特定するものである。説明生成モジュール1103は、前記第2の画像特徴と開始単語ベクトルとに基づいて、異なる時点で、前記第1の画像特徴における前記各画像領域に対応する領域特徴を復号して、前記各画像領域に対応する単語ベクトルを取得するとともに、前記単語ベクトルに基づいて、前記入力画像に対応するテキスト説明を生成するものであり、前記開始単語ベクトルは、前記テキスト説明の開始マークである。
【0092】
本開示の一実施形態では、前記特徴抽出モジュール1101は、前記入力画像を分割して複数の前記画像領域を形成し、符号化ネットワークモデルを介して前記画像領域内のオブジェクトに対して特徴抽出を行い前記画像領域に対応する領域特徴を取得し、前記領域特徴に基づいて前記第1の画像特徴を形成するように構成されている。
【0093】
本開示の一実施形態では、前記特徴変換モジュール1102は、前記第1の画像特徴におけるすべての画素の画素平均値を取得し、前記画素平均値をそれぞれの前記画素の画素値として使用し、前記第2の画像特徴を形成するように構成されている。
【0094】
本開示の一実施形態では、説明生成モジュール1103は、反射復号ネットワークモデルによって前記第2の画像特徴及び開始単語ベクトルに基づいて、異なる時点で、前記第1の画像特徴における各々の前記画像領域に対応する領域特徴を復号し、各々の前記画像領域に対応する単語ベクトルを取得するように構成されている。
【0095】
本開示の一実施形態では、前記反射復号ネットワークモデルは、順次に配列された複数の反射復号サブネットワークを含む。前記説明生成モジュール1103は、前記第2の画像特徴及びM番目の反射復号サブネットワークから出力された単語ベクトルをM+1番目の反射復号サブネットワークに入力し、前記M+1番目の反射復号サブネットワークによって前記第1の画像特徴内の対象領域特徴を復号し、前記対象領域特徴に対応する単語ベクトルを取得するように構成されている。ここで、Mは正の整数である。
【0096】
本開示の一実施形態では、前記説明生成モジュール1103は、前記第2の画像特徴及び前記開始単語ベクトルを第1の反射復号サブネットワークに入力し、前記第1の反射復号サブネットワークによって前記第1の画像特徴内の対象領域特徴を復号し、前記対象領域特徴に対応する単語ベクトルを取得するように構成されている。
【0097】
本開示の一実施形態では、前記反射復号サブネットワークは、視覚注意モジュール、反射型注意モジュールおよび反射型位置モジュールを備え、前記反射型位置モジュールは、現時点で前記反射復号サブネットワークから出力された単語ベクトルの前記テキスト説明における相対的な位置を予測するものである。
【0098】
本開示の一実施形態では、前記視覚注意モジュールは、第1の長短期記憶ネットワーク、第2の長短期記憶ネットワークおよび注意機構ネットワークを含む。前記画像処理装置1100は、前時点で前記反射復号サブネットワークから出力された単語ベクトルを第1の重み行列に掛けて目標単語ベクトルを取得し、前記第1の長短期記憶ネットワークによって、前記第2の画像特徴及び前記目標単語ベクトルに対して特徴抽出を行い、第1の出力情報を取得し、前記第1の出力情報及び前記第1の画像特徴を前記注意機構ネットワークに入力して視覚的マッチングを行い、対象領域特徴を取得し、前記第2の長短期記憶ネットワークによって、前記第1の出力情報及び前記目標領域特徴に対して特徴抽出を行い、第2の出力情報を取得するように構成されている。
【0099】
本開示の一実施形態では、前記画像処理装置1100は、さらに、前記反射型注意モジュールによって過去時点における前記第2の出力情報と、現時点における前記第1の出力情報及び前記第2の出力情報に基づいて、現時点で対象領域特徴に対応する第3の出力情報を特定する単語ベクトル生成モジュールを備える。
【0100】
本開示の一実施形態では、前記単語ベクトル生成モジュールは、すべての前記過去時点における第2の出力情報と、前記現時点における第2の出力情報に基づいて、目標行列を特定し、前記目標行列に対して次元削減処理を行い、第1の特徴情報を取得するとともに、前記現時点における第1の出力情報に対して次元削減処理を行い、第2の特徴情報を取得し、ここで、前記第1の特徴情報と前記第2の特徴情報は次元数が同じであり、注意機構に基づいて前記第1の特徴情報と前記第2の特徴情報を加算して、第3の特徴情報を取得し、前記第3の特徴情報に重み処理及び正規化処理を施して、第2の重み行列を取得し、前記第1の特徴情報を前記第2の重み行列に掛けて積和を求めて、前記第3の出力情報を取得するように構成されている。
【0101】
本開示の一実施形態では、前記説明生成モジュール1103は、前記第3の出力情報を第3の重み行列に掛けて、前期対象領域特徴に対応する単語ベクトルを取得するように構成されている。
【0102】
本開示の一実施形態では、画像処理装置1100は、さらに、画像サンプルと前記画像サンプルに対応するテキスト説明サンプルを取得するサンプル取得モジュールと、前記画像サンプルと前記テキスト説明サンプルにより、トレーニングすべき反射復号ネットワークモデルに対応する損失関数が最小となるように、前記トレーニングすべき反射復号ネットワークモデルをトレーニングするモデルトレーニングモジュールとを備える。ここで、前記損失関数は、クロスエントロピー損失関数及び位置知覚損失関数を含む。
【0103】
本開示の一実施形態では、前記クロスエントロピー損失関数は、前記トレーニングすべき反射復号ネットワークによって生成された前記画像サンプルに対応するテキスト説明が正しい確率であり、前記位置知覚損失関数は、現時点で前記トレーニングすべき反射復号ネットワークによって出力された単語ベクトルのテキスト説明サンプルにおける実位置と予測位置との間の距離である。
【0104】
本開示の一実施形態では、前記位置知覚損失関数に対応する位置知覚損失は、前記反射型位置モジュールによって特定されている。前記画像処理装置1100は、全結合層によって、前記反射型注意モジュールから出力された特徴を全結合させることにより、全結合情報を生成し、予め設定された圧縮関数に従い前記全結合情報を圧縮して、前記反射型注意モジュールの出力特徴に対応する単語ベクトルの予測位置を取得し、前記予測位置と、前記反射型注意モジュールの出力特徴に対応する単語ベクトルの前記テキスト説明サンプルにおける実位置とに基づいて、前記位置知覚損失を特定するように構成されている。
【0105】
図12は、本開示の実施形態による画像処理装置を実現するのに好適なコンピュータシステムの構成を示す概略図を示している。
【0106】
なお、図12に示されている電子機器のコンピュータシステム1200は例示的なものに過ぎず、本開示の実施形態の機能または使用の範囲に関していかなる制限を示唆することを意図しない。
【0107】
図12に示すように、コンピュータシステム1200は、中央処理ユニット(Central Processing Unit,CPU)1201を含み、これは、読み取り専用メモリ(Read-Only Memory,ROM)1202に格納されたプログラム、またはストレージパーツ1208からランダムアクセスメモリ(Random Access Memory,RAM)1203にロードされたプログラムに従って、種々の適切な動作及び処理を実行し、前記実施形態に係る画像処理方法を実現することができる。RAM 1203には、システムオペレーションを行うのに必要な各種のプログラムやデータも格納されている。CPU 1201、ROM 1202およびRAM 1203は、バス1204を介して相互に接続されている。入力/出力(Input/Output,I/O)インターフェース1205もバス1204に接続されている。
【0108】
I/Oインターフェース1205に接続されているコンポーネントは、以下の部材:キーボード、マウスなどを含む入力部分1206;カソード光線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display,LCD)およびスピーカー等を含む出力部分1207;ハードディスク等を含む記憶部1208;およびLAN(Local Area Network,ローカルエリアネットワーク)カード、モデム等のネットワークインターフェースカードを含む通信部1209である。通信部1290は、インターネットなどのネットワークを介して通信処理を行う。ドライバ1210はまた、必要に応じてI/Oインターフェース1205に接続されている。必要に応じて、磁気ディスク、光ディスク、磁気光学ディスク、半導体メモリなどの取り外し可能な媒体1211がドライブ1210に取り付けられ、結果として、そこから読み取られたコンピュータプログラムが必要に応じて記憶部1208にインストールされるようになる。
【0109】
特に、本開示の一実施形態によれば、以下にてフローチャート参照して記述するプロセスは、コンピュータソフトウェアプログラムとして実施されることができる。例えば、本開示の実施形態は、コンピュータ可読媒体上に搭載されたコンピュータプログラムを含むコンピュータプログラム製品を備え、このコンピュータプログラムには、フローチャートに示される方法を実行するためのプログラムコードが含まれている。斯様な実施形態では、このコンピュータプログラムは、通信部分1209を介してネットワークからダウンロードおよびインストールされ得るか、および/または取り外し可能媒体1211からインストールされ得る。このコンピュータプログラムが中央処理装置(CPU)1201によって実行されると、本開示のシステムで定義される様々な機能が実行される。
【0110】
なお、本開示の実施形態に示されるコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、あるいは前記二者の任意の組み合わせであり得る。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁的、赤外線、または半導体システム、装置またはデバイス、あるいは上記の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読媒体のより具体的な例としては、1つまたは複数のワイヤを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(Erasable Programmable Read Only Memory,EPROM)、フラッシュメモリ、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(Compact Disc Read-Only Memory,CD-ROM)、光ストレージデバイス、磁気ストレージデバイス、または上記の任意の適切な組み合わせを含み得るが、これらに限定されない。本開示では、コンピュータ可読記憶媒体は、プログラムを含むかまたは格納する何れかの有形媒体であり得る。当該プログラムは、命令実行システム、装置またはデバイスによって、またはそれらと組み合わせて使用され得る。本開示では、コンピュータ可読信号媒体は、ベースバンド内で、またはキャリア波の一部として伝搬されるデータ信号を含み得るが、中には、コンピュータ読み取り可能なプログラムコードが搭載されている。この伝播されたデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがこれらに限定されない、種々の形態であり得る。コンピュータ可読信号媒体はまた、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であり得る。当該コンピュータ可読媒体は、命令実行システム、装置またはデバイスによって、またはそれらと組み合わせて使用されるプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれているプログラムコードは、無線、有線など、または上記の任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体によって送信され得る。
【0111】
添付の図面におけるフローチャートおよびブロック図は、本開示の各種実施形態によるシステム、方法、およびコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および操作を示している。この点に関して、フローチャートまたはブロック図における各ブロックは、1つのモジュール、プログラムセグメント、またはコードの一部を表すことができ、上記のモジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実現するための1つまたは複数の実行可能な命令が含まれている。また、一部の代替としての実現においては、ブロック内に表記された機能が、図面に表記された順序とは異なる順序で発生する場合がある点に注意されたい。例えば、続いて表示される2つのブロックは、実際にはほぼ並行して実行されてもよく、関わる機能によっては逆の順序に従い実行される場合もある。なお、ブロック図またはフローチャートにおける各ブロック、およびブロック図またはフローチャートにおけるブロックの組み合わせは、指定された機能または操作を実行する専用のハードウェアベースによるシステムによって実現され得るか、または専用のハードウェアとコンピュータの命令との組み合わせによって実現され得る。
【0112】
本開示の実施形態に記載されているユニットは、ソフトウェアまたはハードウェアに実現され得る。記載されているユニットは、またプロセッサに配置されることもできる。その中で、これらのユニットの名称は、特定の状況下でユニットそれ自体を制限するものにならない。
【0113】
別の態様として、本開示はまた、コンピュータ可読媒体をさらに提供する。当該コンピュータ可読媒体は、上記の実施形態に記載の画像処理装置に含まれ得るか、または電子デバイスに装備されることなく単独で存在され得る。前記コンピュータ可読媒体には、1つまたは複数のプログラムが搭載されている。前記1つまたは複数のプログラムが当該電子機器によって実行されると、当該電子機器は、前記実施形態に記載の方法を実現することができるようになる。
【0114】
上記の開示には、動作実行用のデバイスのいくつかのモジュールまたはユニットが詳しく記載されているが、このような区画は必須ではないことに注意されたい。実際に、本開示の実施形態によれば、上記の2つ以上のモジュールまたはユニットの特徴および機能は、1つのモジュールまたはユニットにおいて具体化され得る。逆に、上記の1つのモジュールまたはユニットの特徴および機能は、複数のモジュールまたはユニットによって具体化されるようにさらに区画され得る。
【0115】
上記の実施形態の説明を通じて、本明細書に記載の例示的な実施形態がソフトウェアによって実施でき、またはソフトウェアを必要なハードウェアとを組み合わせることによって実施できることについて、当業者であれば容易に理解され得るであろう。したがって、本開示の実施形態による技術案は、ソフトウェア製品の形で具体化され得る。このソフトウェア製品は、不揮発性記憶媒体(CD-ROM、Uディスク、モバイルハードディスクであり得る)またはネットワーク上に記憶され、コンピューティングデバイス(パーソナルコンピュータ、サーバ、タッチ端末またはネットワークデバイスなど)に本開示の実施形態による方法を実行させるためのいくつかの命令を含む。
【0116】
当業者は、本明細書及びここに開示された発明を考慮した後、本開示の他の実施形態を容易に想起するであろう。本開示は、本開示の任意の変形、用途または適宜な変更をカバーすることを意図される。これらの変形、用途または適宜な変更は、本開示の一般原則に従い、本開示に開示されていない当技術分野の公知常識または慣用の技術手段を含む。
【0117】
本開示は、上記に記載され図面に示されている精確構造に限定されず、その範囲から逸脱しない限り、様々な修正や変更を行うことができると理解されるべきであろう。本開示の範囲は、添付の特許請求の範囲によってのみ制限される。
【符号の説明】
【0118】
1100 画像説明生成装置
1101 特徴抽出モジュール
1102 特徴変換モジュール
1103 説明生成モジュール
1205 インターフェース
1206 入力部
1207 出力部
1208 記憶部
1209 通信部
1210 ドライバ
1211 取り外し可能な媒体
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12