(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-28
(45)【発行日】2022-11-08
(54)【発明の名称】画像質問応答方法、装置、コンピュータ装置、媒体およびプログラム
(51)【国際特許分類】
G06N 5/04 20060101AFI20221031BHJP
G06T 7/00 20170101ALI20221031BHJP
G06N 3/02 20060101ALI20221031BHJP
【FI】
G06N5/04
G06T7/00 350C
G06N3/02
(21)【出願番号】P 2021035347
(22)【出願日】2021-03-05
【審査請求日】2021-03-05
(31)【優先権主張番号】202010616310.1
(32)【優先日】2020-06-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100101454
【氏名又は名称】山田 卓二
(74)【代理人】
【識別番号】100132241
【氏名又は名称】岡部 博史
(72)【発明者】
【氏名】李 ▲ユウ▼林
(72)【発明者】
【氏名】欽 夏孟
(72)【発明者】
【氏名】黄 聚
(72)【発明者】
【氏名】謝 群義
(72)【発明者】
【氏名】韓 鈞宇
【審査官】石川 亮
(56)【参考文献】
【文献】TENEY Damien et al.,Graph-Structured Representations for Visual Question Answering,arXiv[オンライン],2017年,[2022年2月28日検索], インターネット<URL : https://arxiv.org/abs/1609.05600v2>
【文献】LI Linjie et al.,Relation-Aware Graph Attention Network for Visual Question Answering,2019 IEEE/CVF International Conference on Computer Vision (ICCV) [オンライン],IEEE,2019年,[2022年2月28日検索], インターネット<URL : https://ieeexplore.ieee.org/document/9010056>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 5/04
G06T 7/00
G06N 3/02
G06F 16/90
(57)【特許請求の範囲】
【請求項1】
入力画像及び入力質問を取得することと、
前記入力画像に基づいて、第1のノード特徴及び第1のエッジ特徴を含む視覚図を構築することと、
前記入力質問に基づいて、第2のノード特徴及び第2のエッジ特徴を含む質問図を構築することと、
前記視覚図と前記質問図とをマルチモダリティ融合し、更新視覚図と更新質問図を取得することと、
前記入力質問に基づいて質問特徴を決定することと、
前記更新視覚図と、前記更新質問図と、前記質問特徴とに基づいて、融合特徴を決定することと、
前記融合特徴に基づいて、前記入力画像と前記入力質問とに対する予測解答を生成することと、を含む
画像質問応答方法。
【請求項2】
前記入力画像に基づいて視覚図を構築することは、
目標検出ネットワークの中間層から前記入力画像における複数の目標対象に対する表現特徴および空間特徴を抽出するように、前記目標検出ネットワークによって前記入力画像を処理することと、
前記表現特徴および前記空間特徴に基づいて前記第1のノード特徴を決定することと、
前記目標検出ネットワークの出力層により出力された処理結果に基づいて、前記複数の目標対象のそれぞれの位置情報を決定することと、
前記複数の目標対象のそれぞれの位置情報に基づいて、前記複数の目標対象のうちの任意の2つの目標対象間の位置関係を決定することと、
前記任意の2つの目標対象間の位置関係に基づいて前記第1のエッジ特徴を決定することと、
前記第1のノード特徴および前記第1のエッジ特徴から前記視覚図を構成することと、を含む
請求項1に記載の画像質問応答方法。
【請求項3】
前記複数の目標対象のそれぞれの位置情報に基づいて、前記複数の目標対象のうちの任意の2つの目標対象間の位置関係を決定することは、
前記任意の2つの目標対象のそれぞれの位置情報に基づいて、前記任意の2つの目標対象の位置領域間の共通集合および併合集合を計算することと、
前記共通集合と前記併合集合の比率を計算することと、
前記比率が所定の閾値よりも大きい場合、前記任意の2つの目標対象間の位置関係を1として表することと、
前記比率が所定の閾値以下である場合には、前記任意の2つの目標対象間の位置関係を0と表すことと、を含む
請求項2に記載の画像質問応答方法。
【請求項4】
前記入力質問に基づいて質問図を構築することは、
単語符号化アルゴリズム及び特徴符号化アルゴリズムを用いて前記入力質問を順次処理して、前記入力質問から、前記入力質問における複数の単語のそれぞれの特徴情報を示すための複数の単語ノード特徴を抽出することと、
依存分析アルゴリズムを用いて、前記複数の単語のうちの任意の2つの単語間の依存関係を決定することと、
前記任意の2つの単語間の依存関係に基づいて、第2のエッジ特徴を決定すること、
前記複数の単語ノード特徴から前記第2のノード特徴を構成し、前記第2のノード特徴と前記第2のエッジ特徴から前記質問図を構成することと、を含む
請求項1に記載の画像質問応答方法。
【請求項5】
前記視覚図と前記質問図とをマルチモダリティ融合することは、マルチモダリティ融合操作を少なくとも1回実行することを含み、
少なくとも1回のマルチモダリティ融合操作における各マルチモダリティ融合操作は、
前記第1のノード特徴および前記第1のエッジ特徴に基づいて、第1の予定ネットワークを用いて前記第1のノード特徴を符号化して、符号化視覚図を取得することと、
前記第2のノード特徴及び前記第2のエッジ特徴に基づいて、第2の予定ネットワークを用いて前記第2のノード特徴を符号化して、符号化質問図を取得することと、
画像マッチングアルゴリズムを用いて、前記符号化視覚図及び前記符号化質問図をマルチモダリティ融合し、前記更新視覚図及び前記更新質問図を取得することと、を含む
請求項1に記載の画像質問応答方法。
【請求項6】
前記第1の予定ネットワークは、第1の完全接続層、第1の画像畳み込み層及び第2の画像畳み込み層を含み、
前記第1のノード特徴を符号化することは、
第1の完全接続層によって、前記第1のノード特徴を、予定数に等しい空間次元数を有する第1の特徴にマッピングすることと、
第1の画像畳み込み層によって、前記第1の特徴を処理し、第2の特徴を取得することと、
第2の画像畳み込み層によって、前記第2の特徴を処理し、符号化された第1のノード特徴を取得することと、
前記符号化された第1のノード特徴と前記第1のエッジ特徴とから前記符号化視覚図を構成することと、を含む
請求項5に記載の画像質問応答方法。
【請求項7】
前記第1のノード特徴を符号化することは、前記第1のエッジ特徴に基づいて第1のラプラス行列を構築することをさらに含み、
第1の画像畳み込み層によって前記第1の特徴を処理することは、前記第1の画像畳み込み層によって、前記第1のラプラス行列に基づいて、前記第1の特徴を処理し、複数の第1のサブ特徴を含む前記第2の特徴を取得することを含む
請求項6に記載の画像質問応答方法。
【請求項8】
前記第1の予定ネットワークは第1の関連層をさらに含み、
前記第1のノード特徴を符号化することは、第1の関連層によって、前記複数の第1のサブ特徴のうちの任意の2つの第1のサブ特徴間の関連関係を計算し、前記任意の2つの第1のサブ特徴間の関連関係に基づいて、第1の関係行列を決定することをさらに含み、
第2の画像畳み込み層によって前記第2の特徴を処理することは、前記第2の画像畳み込み層によって、前記第1の関係行列に基づいて、前記第2の特徴を処理し、前記符号化された第1のノード特徴を取得することを含む
請求項7に記載の画像質問応答方法。
【請求項9】
前記第2の予定ネットワークは、第2の完全接続層、第3の画像畳み込み層及び第4の画像畳み込み層を含み、
前記第2のノード特徴を符号化することは、
第2の完全接続層を用いて、前記第2のノード特徴を、予定数に等しい空間次元数を有する第3の特徴にマッピングすることと、
第3の画像畳み込み層によって、前記第3の特徴を処理し、第4の特徴を取得することと、
第4の画像畳み込み層によって、前記第4の特徴を処理し、符号化された第2のノード特徴を取得することと、
前記符号化された第2のノード特徴と前記第2のエッジ特徴とから前記符号化質問図を構成することと、を含む
請求項5に記載の画像質問応答方法。
【請求項10】
前記第2のノード特徴を符号化することは、前記第2のエッジ特徴に基づいて第2のラプラス行列を構築することをさらに含み、
第3の画像畳み込み層によって前記第3の特徴を処理することは、前記第3の画像畳み込み層によって、前記第2のラプラス行列に基づいて、前記第3の特徴を処理し、複数の第2のサブ特徴を含む前記第4の特徴を取得することを含む
請求項9に記載の画像質問応答方法。
【請求項11】
前記第2の予定ネットワークは第2の関連層をさらに含み、
前記第2のノード特徴を符号化することは、第2の関連層によって、前記複数の第2のサブ特徴のうちの任意の2つの第2のサブ特徴間の関連関係を計算し、前記任意の2つの第2のサブ特徴間の関連関係に基づいて、第2の関係行列を決定することをさらに含み、
第4の画像畳み込み層によって前記第4の特徴を処理することは、前記第4の画像畳み込み層によって、前記第2の関係行列に基づいて、前記第4の特徴を処理し、前記符号化された第2のノード特徴を取得することを含む
請求項10に記載の画像質問応答方法。
【請求項12】
前記符号化視覚図における符号化された第1のノード特徴は、複数の第3のサブ特徴を含み、前記符号化質問図における符号化された第2のノード特徴は、複数の第4のサブ特徴を含み、
前記画像マッチングアルゴリズムを用いて、前記符号化視覚図及び前記符号化質問図をマルチモダリティ融合することは、
画像マッチングアルゴリズムを用いて前記符号化された第1のノード特徴及び前記符号化された第2のノード特徴に対してマッチング処理を行い、前記複数の第3のサブ特徴のうちのいずれかの第3のサブ特徴と前記複数の第4のサブ特徴のうちのいずれかの第4のサブ特徴との間のマッチング関係を決定することと、
前記いずれかの第3のサブ特徴と前記いずれかの第4のサブ特徴との間のマッチング関係に基づいて、マッチング行列を決定することと、
注意力メカニズムおよび前記マッチング行列に基づいて、第1の注意力重みセットおよび第2の注意力重みセットをそれぞれ決定することと、
前記第1の注意力重みセットと、前記符号化された第1のノード特徴と、前記符号化された第2のノード特徴とに基づいて、更新された第2のノード特徴を決定することと、
前記第2の注意力重みセットと、前記符号化された第1のノード特徴と、前記符号化された第2のノード特徴とに基づいて、更新された第1のノード特徴を決定することと、
前記更新された第1のノード特徴と前記第1のエッジ特徴とから前記更新視覚図を構成し、前記更新された第2のノード特徴と前記第2のエッジ特徴とから前記更新質問図を構成することと、を含む
請求項5に記載の画像質問応答方法。
【請求項13】
前記入力質問に基づいて質問特徴を決定することは、
予定単語符号化アルゴリズム及び予定特徴符号化アルゴリズムによって、前記入力質問を順次符号化処理して前記質問特徴を取得することを含む
請求項12に記載の画像質問応答方法。
【請求項14】
前記更新視覚図と、前記更新質問図と、前記質問特徴とに基づいて融合特徴を決定することは、
前記更新された第1のノード特徴と前記更新された第2のノード特徴とを連結して併合し、併合特徴を取得することと、
前記併合特徴に対して予定プール化操作を行い、推論特徴を取得することと、
前記推論特徴と前記質問特徴とを融合処理して前記融合特徴を取得することと、を含む
請求項12に記載の画像質問応答方法。
【請求項15】
前記推論特徴および前記質問特徴を融合処理することは、
前記推論特徴と前記質問特徴とを要素毎に点乗算操作して前記融合特徴を取得することを含む
請求項14に記載の画像質問応答方法。
【請求項16】
前記融合特徴に基づいて前記入力画像及び前記入力質問に対する予測解答を生成することは、
マルチレイヤ感知機によって前記融合特徴を処理し、前記融合特徴に対する予測解答を取得することを含む
請求項1に記載の画像質問応答方法。
【請求項17】
入力画像及び入力質問を取得する取得モジュールと、
前記入力画像に基づいて、第1のノード特徴及び第1のエッジ特徴を含む視覚図を構築する第1の画像構築モジュールと、
前記入力質問に基づいて、第2のノード特徴及び第2のエッジ特徴を含む質問図を構築する第2の画像構築モジュールと、
前記視覚図と前記質問図とをマルチモダリティ融合し、更新視覚図と更新質問図を取得する更新モジュールと、
前記入力質問に基づいて質問特徴を決定する質問特徴抽出モジュールと、
前記更新視覚図と、前記更新質問図と、前記質問特徴とに基づいて、融合特徴を決定する融合モジュールと、
前記融合特徴に基づいて、前記入力画像と前記入力質問とに対する予測解答を生成する予測モジュールと、を含む
画像質問応答装置。
【請求項18】
コンピュータ命令が記憶されたメモリと、
少なくとも1つのプロセッサと、を含み、
前記プロセッサは、前記コンピュータ命令を実行する場合、請求項1~16のいずれか一つ項による方法を実現する
コンピュータ装置。
【請求項19】
プロセッサによって実行される際に、請求項1
~16のいずれか一つ項による方法を実現するコンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項20】
実行される際に、請求項1~16のいずれか一つ項による方法を実現するコンピュータ命令を含むコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(相互参照)
本出願は、2020年6月30日に出願された中国特許出願第202010616310.1号の優先権を主張し、その内容を参照としてここに組み込む。
【0002】
本開示は、コンピュータ視覚、自然言語処理の分野に関し、より具体的には、画像質問応答方法、装置、コンピュータ装置、媒体およびプログラムに関する。
【背景技術】
【0003】
画像質問応答(Visual Question Answering、VQA)は、コンピュータ視覚と自然言語処理を関連付けることを目的とした非常に困難なタスクである。画像質問応答タスクでは、例えば、画像および関連質問が与えられ、機械が画像の内容に基づいて幾つかの常識と組み合わせて質問に対する解答を推論することが要求される。この画像質問応答タスクを完成するために、機械は、視覚及び言語という2つの異なるモダリティ(Modality)でのデータを総合的に理解するように、クロスモーダル(Cross-Modal)の理解能力を有していなければならない。画像質問応答タスクは他の単一モダリティでのタスク(例えば画像識別、ドキュメント分類等)よりも高い要求を有する。
【発明の概要】
【0004】
本発明は、上記課題に鑑みてなされたものであり、画像質問応答方法、装置、コンピュータ装置、媒体及びプログラムを提供している。
【0005】
本開示の一態様は、画像質問応答方法を提供し、入力画像及び入力質問を取得することと、入力画像に基づいて、第1のノード特徴及び第1のエッジ特徴を含む視覚図を構築することと、入力質問に基づいて、第2のノード特徴及び第2のエッジ特徴を含む質問図を構築することと、視覚図と質問図とをマルチモダリティ融合し、更新視覚図と更新質問図を取得することと、入力質問に基づいて質問特徴を決定することと、更新視覚図と、更新質問図と、質問特徴とに基づいて、融合特徴を決定することと、融合特徴に基づいて、入力画像と入力質問とに対する予測解答を生成することと、を含む。
【0006】
本開示の実施例によれば、入力画像に基づいて視覚図を構築することは、目標検出ネットワークの中間層から入力画像における複数の目標対象に対する表現特徴および空間特徴を抽出するように、目標検出ネットワークによって入力画像を処理することと、上記表現特徴および空間特徴に基づいて第1のノード特徴を決定することと、目標検出ネットワークの出力層により出力された処理結果に基づいて、複数の目標対象のそれぞれの位置情報を決定することと、複数の目標対象のそれぞれの位置情報に基づいて、複数の目標対象のうちの任意の2つの目標対象間の位置関係を決定することと、任意の2つの目標対象間の位置関係に基づいて第1のエッジ特徴を決定することと、第1のノード特徴および第1のエッジ特徴から視覚図を構成することと、を含む。
【0007】
本開示の実施例によれば、複数の目標対象のそれぞれの位置情報に基づいて、複数の目標対象のうちの任意の2つの目標対象間の位置関係を決定することは、任意の2つの目標対象のそれぞれの位置情報に基づいて、任意の2つの目標対象の位置領域間の共通集合および併合集合を計算することと、共通集合と併合集合の比率を計算することと、比率が所定の閾値よりも大きい場合、任意の2つの目標対象間の位置関係を1として表することと、比率が所定の閾値以下である場合には、任意の2つの目標対象間の位置関係を0と表すことと、を含む。
【0008】
本開示の実施例によれば、入力質問に基づいて質問図を構築することは、単語符号化アルゴリズム及び特徴符号化アルゴリズムを用いて入力質問を順次処理して、入力質問から、入力質問における複数の単語のそれぞれの特徴情報を示すための複数の単語ノード特徴を抽出することと、依存分析アルゴリズムを用いて、複数の単語のうちの任意の2つの単語間の依存関係を決定することと、任意の2つの単語間の依存関係に基づいて、第2のエッジ特徴を決定すること、複数の単語ノード特徴から第2のノード特徴を構成し、第2のノード特徴と第2のエッジ特徴から質問図を構成することと、を含む。
【0009】
本開示の実施例によれば、視覚図と質問図とをマルチモダリティ融合することは、マルチモダリティ融合操作を少なくとも1回実行することを含む。上記少なくとも1回のマルチモダリティ融合操作における各マルチモダリティ融合操作は、第1のノード特徴および第1のエッジ特徴に基づいて、第1の予定ネットワークを用いて第1のノード特徴を符号化して、符号化視覚図を取得することと、第2のノード特徴及び第2のエッジ特徴に基づいて、第2の予定ネットワークを用いて第2のノード特徴を符号化して、符号化質問図を取得することと、画像マッチングアルゴリズムを用いて、符号化視覚図及び符号化質問図をマルチモダリティ融合し、更新視覚図及び更新質問図を取得することと、を含む。
【0010】
本開示の実施例によれば、第1の予定ネットワークは、第1の完全接続層、第1の画像畳み込み層及び第2の画像畳み込み層を含む。上記第1のノード特徴を符号化することは、第1の完全接続層によって、第1のノード特徴を、予定数に等しい空間次元数を有する第1の特徴にマッピングすることと、第1の画像畳み込み層によって、第1の特徴を処理し、第2の特徴を取得することと、第2の画像畳み込み層によって、第2の特徴を処理し、符号化された第1のノード特徴を取得することと、符号化された第1のノード特徴と第1のエッジ特徴とから符号化視覚図を構成することと、を含む。
【0011】
本開示の実施例によれば、第1のノード特徴を符号化することは、第1のエッジ特徴に基づいて第1のラプラス行列を構築することをさらに含む。第1の画像畳み込み層によって第1の特徴を処理することは、第1の画像畳み込み層によって、第1のラプラス行列に基づいて、第1の特徴を処理し、複数の第1のサブ特徴を含む第2の特徴を取得することを含む。
【0012】
本開示の実施例によれば、第1の予定ネットワークは第1の関連層をさらに含む。第1のノード特徴を符号化することは、第1の関連層によって、複数の第1のサブ特徴のうちの任意の2つの第1のサブ特徴間の関連関係を計算し、任意の2つの第1のサブ特徴間の関連関係に基づいて、第1の関係行列を決定することをさらに含む。第2の画像畳み込み層によって第2の特徴を処理することは、第2の画像畳み込み層によって、第1の関係行列に基づいて、第2の特徴を処理し、符号化された第1のノード特徴を取得することを含む。
【0013】
本開示の実施例によれば、第2の予定ネットワークは、第2の完全接続層、第3の画像畳み込み層及び第4の画像畳み込み層を含む。第2のノード特徴を符号化することは、第2の完全接続層を用いて、第2のノード特徴を、予定数に等しい空間次元数を有する第3の特徴にマッピングすることと、第3の画像畳み込み層によって、第3の特徴を処理し、第4の特徴を取得することと、第4の画像畳み込み層によって、第4の特徴を処理し、符号化された第2のノード特徴を取得することと、符号化された第2のノード特徴と第2のエッジ特徴とから符号化質問図を構成することと、を含む。
【0014】
本開示の実施例によれば、第2のノード特徴を符号化することは、第2のエッジ特徴に基づいて第2のラプラス行列を構築することをさらに含む。第3の画像畳み込み層によって第3の特徴を処理することは、第3の画像畳み込み層によって、第2のラプラス行列に基づいて、第3の特徴を処理し、複数の第2のサブ特徴を含む第4の特徴を取得することを含む。
【0015】
本開示の実施例によれば、第2の予定ネットワークは第2の関連層をさらに含む。第2のノード特徴を符号化することは、第2の関連層によって、複数の第2のサブ特徴のうちの任意の2つの第2のサブ特徴間の関連関係を計算し、任意の2つの第2のサブ特徴間の関連関係に基づいて、第2の関係行列を決定することをさらに含む。第4の画像畳み込み層によって第4の特徴を処理することは、第4の画像畳み込み層によって、第2の関係行列に基づいて、第4の特徴を処理し、符号化された第2のノード特徴を取得することを含む。
【0016】
本開示の実施例によれば、符号化視覚図における符号化された第1のノード特徴は、複数の第3のサブ特徴を含み、符号化質問図における符号化された第2のノード特徴は、複数の第4のサブ特徴を含む。画像マッチングアルゴリズムを用いて、符号化視覚図及び符号化質問図をマルチモダリティ融合することは、画像マッチングアルゴリズムを用いて符号化された第1のノード特徴及び符号化された第2のノード特徴に対してマッチング処理を行い、複数の第3のサブ特徴のうちのいずれかの第3のサブ特徴と複数の第4のサブ特徴のうちのいずれかの第4のサブ特徴との間のマッチング関係を決定することと、いずれかの第3のサブ特徴といずれかの第4のサブ特徴との間のマッチング関係に基づいて、マッチング行列を決定することと、注意力メカニズムおよびマッチング行列に基づいて、第1の注意力重みセットおよび第2の注意力重みセットをそれぞれ決定することと、第1の注意力重みセット、符号化された第1のノード特徴、及び符号化された第2のノード特徴に基づいて、更新された第2のノード特徴を決定することと、第2の注意力重みセット、符号化された第1のノード特徴、及び符号化された第2のノード特徴に基づいて、更新された第1のノード特徴を決定することと、更新された第1のノード特徴と第1のエッジ特徴とから更新視覚図を構成し、更新された第2のノード特徴と第2のエッジ特徴とから更新質問図を構成することと、を含む。
【0017】
本開示の実施例によれば、前記入力質問に基づいて質問特徴を決定することは、予定単語符号化アルゴリズム及び予定特徴符号化アルゴリズムによって、入力質問を順次符号化処理して質問特徴を取得することを含む。
【0018】
本開示の実施例によれば、更新視覚図、更新質問図および質問特徴に基づいて融合特徴を決定することは、更新された第1のノード特徴と更新された第2のノード特徴とを連結して併合し、併合特徴を取得することと、併合特徴に対して予定プール化操作を行い、推論特徴を取得することと、推論特徴と質問特徴とを融合処理して融合特徴を取得することと、を含む。
【0019】
本開示の実施例によれば、推論特徴および質問特徴を融合処理することは、推論特徴と質問特徴とを要素毎に点乗算操作して融合特徴を取得することを含む。
【0020】
本開示の実施例によれば、融合特徴に基づいて入力画像と入力質問とに対する予測解答を生成することは、マルチレイヤ感知機によって融合特徴を処理し、融合特徴に対する予測解答を取得することを含む。
【0021】
本開示の別の態様は、画像質問応答装置を提供しており、入力画像及び入力質問を取得する取得モジュールと、入力画像に基づいて、第1のノード特徴及び第1のエッジ特徴を含む視覚図を構築する第1の画像構築モジュールと、入力質問に基づいて、第2のノード特徴及び第2のエッジ特徴を含む質問図を構築する第2の画像構築モジュールと、視覚図と質問図とをマルチモダリティ融合し、更新視覚図と更新質問図を取得する更新モジュールと、入力質問に基づいて質問特徴を決定する質問特徴抽出モジュールと、更新視覚図、更新質問図および質問特徴に基づいて、融合特徴を決定する融合モジュールと、融合特徴に基づいて、入力画像及び入力質問に対する予測解答を生成する予測モジュールと、を含む。
【0022】
本開示の実施例によれば、第1の画像構築モジュールは、目標検出ネットワークの中間層から入力画像における複数の目標対象に対する表現特徴および空間特徴を抽出するように、目標検出ネットワークによって入力画像を処理する検出サブモジュールを含む。第1のノード特徴決定サブモジュールは、上記表現特徴および空間特徴に基づいて第1のノード特徴を決定する。第1のエッジ特徴決定サブモジュールは、目標検出ネットワークの出力層により出力された処理結果に基づいて、複数の目標対象のそれぞれの位置情報を決定する;複数の目標対象のそれぞれの位置情報に基づいて、複数の目標対象のうちの任意の2つの目標対象間の位置関係を決定する;任意の2つの目標対象間の位置関係に基づいて第1のエッジ特徴を決定する。第1の画像構築サブモジュールは、上記第1のノード特徴および第1のエッジ特徴から視覚図を構成する。
【0023】
本開示の実施例によれば、第1のエッジ特徴決定サブモジュールが複数の目標対象のそれぞれの位置情報に基づいて、複数の目標対象のうちの任意の2つの目標対象間の位置関係を決定することは、第1のエッジ特徴決定サブモジュールが、任意の2つの目標対象のそれぞれの位置情報に基づいて、任意の2つの目標対象の位置領域間の共通集合および併合集合を計算することと、共通集合と併合集合の比率を計算することと、比率が所定の閾値よりも大きい場合、任意の2つの目標対象間の位置関係を1として表することと、比率が所定の閾値以下である場合には、任意の2つの目標対象間の位置関係を0と表すことと、を含む。
【0024】
本開示の実施例によれば、第2の画像構築モジュールは、単語符号化アルゴリズム及び特徴符号化アルゴリズムを用いて入力質問を順次処理して、入力質問から入力質問における複数の単語のそれぞれの特徴情報を示すための複数の単語ノード特徴を抽出する第2のノード特徴決定サブモジュールを含む。第2のエッジ特徴決定サブモジュールは、依存分析アルゴリズムを用いて、複数の単語のうちの任意の2つの単語間の依存関係を決定することと、任意の2つの単語間の依存関係に基づいて、第2のエッジ特徴を決定する。第2の画像構築サブモジュールは、複数の単語ノード特徴から第2のノード特徴を構成し、第2のノード特徴と第2のエッジ特徴から質問図を構成することと、を含む。
【0025】
本開示の実施例によれば、更新モジュールは、視覚図と質問図に対して、マルチモダリティ融合操作を少なくとも1回実行する。更新モジュールが実行される少なくとも1回のマルチモダリティ融合操作における各マルチモダリティ融合操作は、第1のノード特徴および第1のエッジ特徴に基づいて、第1の予定ネットワークを用いて第1のノード特徴を符号化して、符号化視覚図を取得する第1の画像符号化サブモジュールと、第2のノード特徴及び第2のエッジ特徴に基づいて、第2の予定ネットワークを用いて第2のノード特徴を符号化して、符号化質問図を取得する第2の画像符号化サブモジュールと、画像マッチングアルゴリズムを用いて、符号化視覚図及び符号化質問図をマルチモダリティ融合し、更新視覚図及び更新質問図を取得する画像マッチングサブモジュールと、を含む。
【0026】
本開示の実施例によれば、第1の予定ネットワークは、第1の完全接続層、第1の画像畳み込み層及び第2の画像畳み込み層を含む。第1の画像符号化サブモジュールは、第1の完全接続層によって、第1のノード特徴を、予定数に等しい空間次元数を有する第1の特徴にマッピングする第1のマッチング手段と、第1の画像畳み込み層によって、第1の特徴を処理し、第2の特徴を取得する第1の画像畳み込み手段と、第2の画像畳み込み層によって、第2の特徴を処理し、符号化された第1のノード特徴を取得する第2の画像畳み込み手段と、符号化された第1のノード特徴と第1のエッジ特徴とから符号化視覚図を構成する第1の符号化手段と、を含む。
【0027】
本開示の実施例によれば、第1の画像符号化サブモジュールは、第1のエッジ特徴に基づいて第1のラプラス行列を構築する第1の構築手段をさらに含む。第1の画像畳み込み手段は、第1の画像畳み込み層によって、第1のラプラス行列に基づいて、第1の特徴を処理し、複数の第1のサブ特徴を含む第2の特徴を取得する。
【0028】
本開示の実施例によれば、第1の予定ネットワークは第1の関連層をさらに含む。第1の画像符号化サブモジュールは、第1の関連層によって、複数の第1のサブ特徴のうちの任意の2つの第1のサブ特徴間の関連関係を計算し、任意の2つの第1のサブ特徴間の関連関係に基づいて、第1の関係行列を決定する第2の構築手段をさらに含む。第2の画像畳み込み手段は、第2の画像畳み込み層によって、第1の関係行列に基づいて、第2の特徴を処理し、符号化された第1のノード特徴を取得する。
【0029】
本開示の実施例によれば、第2の予定ネットワークは、第2の完全接続層、第3の画像畳み込み層及び第4の画像畳み込み層を含む。第2の画像符号化サブモジュールは、第2の完全接続層を用いて、第2のノード特徴を、予定数に等しい空間次元数を有する第3の特徴にマッピングする第2のマッチング手段と、第3の画像畳み込み層によって、第3の特徴を処理し、第4の特徴を取得する第3の画像畳み込み手段と、第4の画像畳み込み層によって、第4の特徴を処理し、符号化された第2のノード特徴を取得する第4の画像畳み込み手段と、符号化された第2のノード特徴と第2のエッジ特徴とから符号化質問図を構成する第2の符号化手段と、を含む。
【0030】
本開示の実施例によれば、第2の画像符号化サブモジュールは、第2のエッジ特徴に基づいて第2のラプラス行列を構築する第3の構築手段をさらに含む。第3の画像畳み込み手段は、第3の画像畳み込み層によって、第2のラプラス行列に基づいて、第3の特徴を処理し、複数の第2のサブ特徴を含む第4の特徴を取得する。
【0031】
本開示の実施例によれば、第2の予定ネットワークは第2の関連層をさらに含む。第2の画像符号化サブモジュールは、第2の関連層によって、複数の第2のサブ特徴のうちの任意の2つの第2のサブ特徴間の関連関係を計算し、任意の2つの第2のサブ特徴間の関連関係に基づいて、第2の関係行列を決定する第4の構築手段をさらに含む。第4の画像畳み込み手段は、第4の画像畳み込み層によって、第2の関係行列に基づいて、第4の特徴を処理し、符号化された第2のノード特徴を取得する。
【0032】
本開示の実施例によれば、符号化視覚図における符号化された第1のノード特徴は、複数の第3のサブ特徴を含み、符号化質問図における符号化された第2のノード特徴は、複数の第4のサブ特徴を含む。画像マッチングサブモジュールは、画像マッチングアルゴリズムを用いて符号化された第1のノード特徴及び符号化された第2のノード特徴に対してマッチング処理を行い、複数の第3のサブ特徴のうちのいずれかの第3のサブ特徴と複数の第4のサブ特徴のうちのいずれかの第4のサブ特徴との間のマッチング関係を決定し、いずれかの第3のサブ特徴といずれかの第4のサブ特徴との間のマッチング関係に基づいて、マッチング行列を決定するマッチング手段と、注意力メカニズムおよびマッチング行列に基づいて、第1の注意力重みセットおよび第2の注意力重みセットをそれぞれ決定し、第1の注意力重みセット、符号化された第1のノード特徴、及び符号化された第2のノード特徴に基づいて、更新された第2のノード特徴を決定し、第2の注意力重みセットと、符号化された第1のノード特徴と、符号化された第2のノード特徴とに基づいて、更新された第1のノード特徴を決定し、更新された第1のノード特徴と第1のエッジ特徴とから更新視覚図を構成し、更新された第2のノード特徴と第2のエッジ特徴とから更新質問図を構成する更新手段と、を含む。
【0033】
本開示の実施例によれば、質問特徴抽出モジュールは、予定単語符号化アルゴリズム及び予定特徴符号化アルゴリズムによって、入力質問を順次符号化処理して質問特徴を取得する。
【0034】
本開示の実施例によれば、融合モジュールは、更新された第1のノード特徴と更新された第2のノード特徴とを連結して併合し、併合特徴を取得する併合サブモジュールと、併合特徴に対して予定プール化操作を行い、推論特徴を取得する処理サブモジュールと、推論特徴と質問特徴とを融合処理して融合特徴を取得する融合サブモジュールと、を含む。
【0035】
本開示の実施例によれば、融合サブモジュールは、推論特徴と質問特徴とを要素毎に点乗算操作して融合特徴を取得する。
【0036】
本開示の実施例によれば、予測モジュールは、マルチレイヤ感知機によって融合特徴を処理し、融合特徴に対する予測解答を取得する。
【0037】
本開示の別の態様は、コンピュータ装置を提供しており、メモリと、プロセッサと、メモリに記憶されたプロセッサに実行されるコンピュータプログラムとを含み、前記プロセッサが前記プログラムを実行する場合、上記方法を実現する。
【0038】
本開示の別の態様は、非一時的なコンピュータ読み取り可能な記憶媒体を提供しており、実行される際に、上記方法を実現するコンピュータ実行可能な命令が記憶される。
【0039】
本開示の別の態様は、コンピュータプログラムを提供しており、実行される際に、上記方法を実現するコンピュータ実行可能な命令を含む。
【0040】
本発明の実施例による画像質問応答方法は、入力画像及び入力質問を取得した後、入力画像のトポロジー(視覚図)を構築することにより、画像における目標対象の特徴情報と目標対象との間の潜在的な関係を表し、入力質問のトポロジー(質問図)を構築することにより、質問における単語の特徴情報と単語との間の潜在的な関係を表し、マルチ目標画像及び複雑な質問によるノイズの影響を低減する。視覚図と問題図とのマルチモダリティ融合を通して、視覚図と問題図とのノード特徴の整列および更新を可能にすることによって、モダリティ間の語義ギャップを短縮する。その上で、更新視覚図、更新質問図及び質問特徴から融合特徴を得て、融合特徴に基づいて最終解答の予測を行う。入力画像及び入力質問の特徴表現に対する事前の最適化、並びに視覚図及び質問図に対する中間のマルチモダリティ融合により、複雑な入力に対する画像質問応答過程の推論能力を効果的に向上させることができ、本開示の実施例による画像質問応答過程はより解釈性が高くなる。
【図面の簡単な説明】
【0041】
以下、図面を参照して本開示の実施例を説明することにより、本開示の上記および他の目的、特徴や利点は、より明らかになる。
【0042】
【
図1】
図1は、本開示の実施例による画像質問応答方法及び装置を適用するための例示的なシステムアーキテクチャを概略的に示している。
【
図2】
図2は、本開示の実施例による画像質問応答方法のフローチャートを概略的に示している。
【
図3A】
図3Aは、本開示の実施例による画像質問応答過程の例示的な概略図を概略的に示している。
【
図3B】
図3Bは、本開示の別の実施例による画像質問応答過程の例示的な概略図を概略的に示している。
【
図3C】
図3Cは、本開示の実施例による画像畳み込み符号化モジュールの例示的な構造図を概略的に示している。
【
図3D】
図3Dは、本開示の実施例による画像マッピング更新モジュールの処理過程の例示的な概略図を概略的に示している。
【
図4】
図4は、本開示の実施例による画像質問応答装置のブロック図を概略的に示している。
【
図5】
図5は、本開示の実施例によるコンピュータ装置のブロック図を概略的に示している。
【発明を実施するための形態】
【0043】
以下、本開示の実施例について、図面を参照しながら説明する。しかしながら、これらの説明が例示的なものであり、本開示の範囲を限定するものではないことを理解されたい。以下の詳細な説明では、説明を容易にするために、本開示の実施例に対する全面的な理解を提供するように、多数の具体的な詳細が記載される。しかしながら、これらの具体的な詳細なしに1つ以上の実施例が実施されてもよいことは明らかである。また、以下の説明において、本開示の概念を不必要に混乱させることを避ける不明瞭にしないように、周知の構造及び技術に対する説明は省略する。
【0044】
ここで使用される用語は、具体的な実施例を説明するためのものに過ぎず、本開示を限定することを意図しない。「備える」、「含む」などのここで使用される用語は、前記特徴、ステップ、操作、および/または部品の存在を示すが、1つまたは複数の他の特徴、ステップ、操作または部品の存在または追加を除外しない。
【0045】
ここで使用される全ての用語(技術的及び科学的用語を含む)は、別途定義されない限り、当業者によって一般的に理解される意味を有する。ここで使用される用語は、本明細書の文脈と一致する意味を有すると解釈されるべきであり、理想的または過度に形式的に解釈されるべきではないことに留意されたい。
【0046】
「A、B及びCなどのうちの少なくとも1つ」に類似する表現を使用する場合、その表現の意味が当業者によって一般的に理解されるように解釈されるべきである(例えば、「A、B及びCのうちの少なくとも1つを有するシステム」は、Aを単独で有するシステム、Bを単独で有するシステム、Cを単独で有するシステム、A及びBを有するシステム、A及びCを有するシステム、B及びCを有するシステム、及び/又はA、B、Cを有するシステムなどを含むが、これらに限定されない)。「A、B及びCなどのうちの少なくとも1つ」に類似する表現を使用する場合、その表現の意味が当業者によって一般的に理解されるように解釈されるべきである(例えば、「A、B又はCのうちの少なくとも1つを有するシステム」は、Aを単独で有するシステム、Bを単独で有するシステム、Cを単独で有するシステム、A及びBを有するシステム、A及びCを有するシステム、B及びCを有するシステム、及び/又はA、B、Cを有するシステムなどを含むが、これらに限定されない)。
【0047】
本開示の実施例は、画像質問応答方法、装置、コンピュータ装置、媒体及びプログラムを提供している。画像質問応答方法は、取得過程、第1の画像構築過程、第2の画像構築過程、更新過程、質問特徴抽出過程、融合過程及び予測過程を含み得る。取得過程では、入力画像と入力質問を取得する。入力画像に対して第1の画像構築過程を行い、第1のノード特徴及び第1のエッジ特徴を含む視覚図を構築する。入力質問に対して第2の画像構築処理を行い、第2のノード特徴及び第2のエッジ特徴を含む質問図を構築する。更新過程において、視覚図及び質問図に対して、マルチモダリティ融合を行い、更新視覚図及び更新質問図を取得する。入力質問に対して質問抽出過程を行い、質問特徴を決定する。次に、融合過程を行い、更新視覚図、更新質問図及び質問特徴に基づいて、融合特徴を決定する。融合特徴に基づいて予測過程を行い、入力画像及び入力質問に対する予測解答を生成することができる。
【0048】
現在、インターネット技術の急速な発展に伴い、データの種類も豊富になってきている。「クロスモーダル」データが主流のデータ形式となってきている。クロスモーダル特徴整列は、マルチメディアの分野およびディープラーニングの分野における重要な研究方向であり、異なるメディア(例えば、画像、ビデオおよびテキストなど)間の語義ギャップを開通させ、統一的な語義表現を確立することを目的とした。視覚問答技術において、クロスモーダル特徴の整列及び融合もこの研究の現在の困難点である。視覚問答は、視覚画像に対する自然言語問答であり、視覚理解の研究方向の1つとして、視覚と言語が連結されており、モデルは、画像を理解した上で、具体的な質問に応じて回答する必要がある。現在、画像質問応答システムは、学術界及び産業界の両方で広く研究されており、画像質問応答システムは、任意の自然言語で記述された質問及び所与の画像に対して、十分な理解及び推論を行った後、自然言語で正確に回答するように、適切なモデルを設計することを目標とする。しかし、現在の画像質問応答システムは、例えばクロスモーダルデータの融合や効果的な関係推論などの課題がまだ解決されていない。
【0049】
図1は、本開示の実施例による画像質問応答方法および装置を適用できる例示的なシステムアーキテクチャ100を概略的に示している。
図1は、当業者が本開示の技術内容を理解させるように、本開示の実施例を適用できるシステムアーキテクチャの例示に過ぎず、本開示の実施例が他の装置、システム、環境又はシナリオで使用できないことを意味するものではないことに留意されたい。
【0050】
図1に示すように、本実施例によるシステムアーキテクチャ100は、複数の端末装置110、ネットワーク120、及びサーバ130を含むことができる。ここで、端末装置110は、例えば、デスクトップ型コンピュータ、携帯型コンピュータ、スマートフォン、タブレット型コンピュータなどの各種端末装置であってもよいが、ここでは限定されない。サーバ130は、様々な計算能力を有する電子デバイスであってもよく、例えば、サーバまたはサーバクラスタであってもよく、ここでは限定されない。端末装置110は、様々な機能のソフトウェアクライアントをロードして、ソフトウェアクライアントを介してサーバ130と対話することができる。
【0051】
なお、一実施例において、本開示の実施例による画像質問応答方法は、端末装置110によって実施されることができ、相応的には、画像質問応答装置は、端末装置110に設けられることができる。別の実施例において、本開示の実施例による画像質問応答方法は、サーバ130によって実施されることができ、相応的には、画像質問応答装置は、サーバ130に設けられることができる。さらに別の実施例において、本発明の実施例による画像質問応答方法は、端末装置110及び/又はサーバ130と相互通信可能な他の装置によって実施されることができ、相応的には、画像質問応答装置は、他の装置に設けられることができる。
【0052】
近年、画像質問応答の進展は目覚ましく、コンピュータ視覚や自然言語処理の分野から注目を集めている。画像質問応答タスクを解決するための提案が各分野で数多くなされている。ほとんどの提案は、エンドツーエンドの手順を採用しており、例えば、事前にトレーニングされた畳み込みニューラルネットワークを用いて画像特徴を抽出し、再帰ニューラルネットワークを用いて質問を示し、そして、画像特徴と質問特徴を関連して解答を予測する。現在の画像質問応答提案は、(1)粗粒度クロスモーダル表現による画像質問応答モデル、(2)注意力メカニズムに基づく細粒度クロスモーダル表現モデル、(3)外部知識又は知識ネットワークに基づく画像質問応答モデルという3つのモデルを利用することが普通である。
【0053】
モデル(1)は、最も直接的な画像質問応答モデルである。クロスモーダル特徴融合がこのモデルの中心であるが、処理内容が比較的複雑で、主体が多数存在する画像である場合、解答予測の正確性に影響を与える可能性のあるノイズが必然的により多く導入される。質問テキストに対する処理においても同様な課題があり、質問が長く、画像に関連する単語が多数存在する場合、このモデルで、質問者が所望するキーワードを捕捉し難く、最終的に解答の予測の正確性が悪くなる。モデル(2)は、上記した粗粒度クロスモーダル表現モデルに基づいて、注意力メカニズムを導入したものであり、これは、細粒度クロスモーダルの表現能力を大きく向上させる。しかし、現在、画像質問応答モデルに用いられる注意力モデルは、質問の特徴に基づいて画像の注目領域を学習することが多く、質問自体の注目点学習を無視し、すなわち、質問におけるキーワード又はフレーズに対する注意力学習を無視しているため、解答の予測正確性が悪い。モデル(3)の難点は、従来のモデルは、外部知識と画像質問応答データセットにおけるすべての質問とをマッピングすることが困難であり、一部の問題しか解決できず、汎用性に乏しい点である。
【0054】
上記分析から分かるように、従来の画像質問応答提案は、以下の問題がある。一、クロスモーダルの融合戦略が不十分であり、複雑な融合モデルを導入するとともに、モデルの計算効率も大きく低下している。そのため、如何にして効果的な特徴融合を保障するとともに計算コストを低減するかのアルゴリズムを検討することは、画像質問応答の重要な開発方向である。二、関係推論の能力が不足する。多くの実際な画像質問応答過程では、モデルが多段階の関係推論によって最終的な解答を見つける必要があるが、現在のモデルは、複数のモダリティ特徴融合によって質問に回答し、複雑な質問に対する理解および推論の効果を不十分にしている。
【0055】
本開示の実施例によれば、画像質問応答方法が提供される。この方法を、図面を用いて例示的に説明する。なお、以下の方法における各操作の番号は、説明の便宜上、その操作を示したものであり、各操作の実行順序を示すものと解釈してはならない。特に明記しない限り、この方法は、示された順序で完全に実行される必要はない。
【0056】
図2は、本開示の実施例による画像質問応答方法のフローチャートを概略的に示している。
【0057】
図2に示すように、この方法は、操作S201~操作S207を含む。
【0058】
操作S201において、入力画像及び入力質問を取得する。
【0059】
操作S202において、入力画像に基づいて、視覚図(Visual Graph)を構築する。
【0060】
本開示の実施例によれば、視覚図は、入力画像のトポロジー表現であり、入力画像の特徴情報をより完全に正確に示している。例示的に、視覚図は、第1のノード(Node)特徴及び第1のエッジ(Edge)特徴を含むことができる。第1のノード特徴は、入力画像内の1つ以上の目標対象の特徴情報を示し、第1のエッジ特徴は、入力画像における目標対象間の潜在的な関係を示している。
【0061】
操作S203において、入力質問に基づいて、質問図(Question Graph)を構築する。
【0062】
本開示の実施例によれば、質問図は、入力質問のトポロジー表現であり、入力質問の特徴情報をより完全に正確に表現するために使用される。例示的に、質問図は、第2のノード特徴及び第2のエッジ特徴を含み得る。第2のノード特徴は、入力質問における1つ以上の単語の特徴情報を示し、第2のエッジ特徴は、入力質問における単語間の潜在的な関係を示す。
【0063】
操作S204において、視覚図及び質問図に対してマルチモダリティ融合(Multimodal Fusion)を行い、更新視覚図及び更新質問図を取得する。
【0064】
例示的に、本操作S204のマルチモダリティ融合により、画像データとテキストデータとの間の語義ギャップ(Semantic Gap)を小さくすることができ、得られた更新視覚図及び更新質問は、2つの異なるモダリティ特徴の整列及び更新を実現する。
【0065】
操作S205において、入力質問に基づいて質問特徴を決定する。
【0066】
操作S206において、更新視覚図、更新質問図および質問特徴に基づいて、融合特徴を決定する。
【0067】
操作S207において、融合特徴に基づいて入力画像及び入力質問に対する予測解答を生成する。
【0068】
本開示の実施例による画像質問応答方法が、入力画像と入力質問を取得した後、入力画像のトポロジー(視覚図)を構築することにより、画像における目標対象の特徴情報と目標対象間の潜在的な関係を表し、入力質問のトポロジー(質問図)を構築することにより、質問における単語の特徴情報と単語間の潜在的な関係を表し、複数の目標画像および複雑な質問によるノイズの影響を低減することが当業者に理解される。視覚図と問題図に対するマルチモダリティ融合を通して、視覚図と質問図とのノード特徴の整列および更新を実現し、モダリティ間の語義ギャップを小さくする。これに基づいて、更新視覚図、更新質問図及び質問特徴によって、融合特徴を得て、融合特徴に基づいて、最終解答の予測を行う。入力画像及び入力質問の特徴表現に対する前期の最適化、並びに視覚図及び質問図に対する中間のマルチモダリティ融合により、画像質問応答過程に複雑な入力に対する推論能力を効果的に向上させることができ、本開示の実施例による画像質問応答過程をより解釈可能にする。
【0069】
以下、
図3A~
図3Dを参照して、具体的な実施例を組み合わせ、本開示の実施例による画像質問応答方法を例示的に説明する。
【0070】
図3Aは、本開示の実施例による画像質問応答過程の例示的な概略図を概略的に示している。
図3Bは、本開示の別の実施例による画像質問応答過程の例示的な概略図を概略的に示している。
【0071】
図3Aに示す例では、ネットワークモデル300を予め構築することができ、当該ネットワークモデル300は、順次に接続された画像構築モジュール301と、画像符号化モジュール302と、画像マッチング更新モジュール303と、画像融合(Graph Fusion)モジュール304と、問答モジュール305とを含む。ここでは、画像符号化モジュール302は、例えば画像畳み込み符号化モジュール(GCN Encoder)302であってもよい。画像畳み込み符号化モジュール302及び画像マッチング更新モジュール303は、直列に接続して1つの全体の更新ジュールを構成することができ、ネットワークモジュール300に1つ以上の当該全体の更新モジュールが含まれることができる。本開示の実施例によれば、上記のネットワークモデル300を訓練することによって、当該ネットワークモデル300が
図2に示すような画像質問応答タスクを実行する能力を有する必要がある。訓練過程では、サンプル画像及びサンプル質問を上記ネットワークモデル300に入力し、ネットワークモデル300の目的関数が収束するまで、ネットワークモデル300の出力とサンプルラベルとの差異に応じてネットワークモデル300のパラメータを最適化する。ここで、サンプルラベルは、サンプル画像及びサンプル質問に対する真実解答である。ネットワークモデル300に対する訓練を完了し、本開示の実施例による画像質問応答方法は、訓練されたネットワークモデル300によって実施することができる。以下、実施手順を例示的に説明する。
【0072】
本開示の実施例によれば、
図3Aに示すように、ネットワークモデル300における画像構築モジュール301は、入力画像I306及び入力質問Q307を取得する。画像構築モジュール301は、上記操作S202における入力画像に基づいて、視覚図を構築する過程を実行することができる。例示的に、画像構築モジュール301は、目標検出(Object Detection)ネットワークの中間層から入力画像における複数の目標対象に対する表現特徴及び空間特徴を抽出し、上記表現特徴及び空間特徴に基づいて第1のノード特徴を決定するように、目標検出ネットワークによって入力画像I306を処理することができる。そして、目標検出ネットワークの出力層によって出力される処理結果に基づいて、複数の目標対象のそれぞれの位置情報を決定する。複数の目標対象のそれぞれの位置情報に基づいて、複数の目標対象のうちの任意の2つの目標対象間の位置関係を決定する。任意の2つの目標対象間の位置関係に基づいて、第1のエッジ特徴を決定する。上記第1のノード特徴と第1のエッジ特徴とから視覚図を構成する。
【0073】
図3Bに示す例において、画像構築モジュール301は、Faster RCNN(Faster Region Convolutional Neural Network、より高速領域畳み込みニューラルネットワーク)3011を利用して、入力画像I306におけるK
1個の目標対象を検出し、特徴マップ(Feature Map)全体にわたって関心領域プール化操作(ROI Pooling )を経た
及び
を抽出する。そのうち、表現特徴Fは、K
1個の目標対象に対するK
1個のサブ特徴を含め、各サブ特徴は、空間次元数が2048であるベクトルとして表すことができ、空間次元数は、需要に応じて設定することができる。ここでは、単に例である。空間特徴Sはまた、K
1個の目標対象に対するK
1個のサブ特徴を含め、各サブ特徴は、空間次元数が4であるベクトルとして表され得る。例えば、目標対象に対する外枠(Bounding Box)の高さ値、幅値、および中心点の座標を含む。表現特徴Fと空間特徴Sとを加えて視覚
図G1308の第1のノード特徴V
m={F||S}として、併合方式は、例えば、連結併合であってもよい。
【0074】
視覚マップG
1308の第1のエッジ特徴は、例えば、
というバイナリ表現であり得る。第1のエッジ特徴は、入力画像I306における任意の2つの目標対象間の位置関係により決定することができる。本開示の実施例によれば、上記任意の2つの目標対象は、異なる目標対象を含んでもよいし、同じ目標対象を含んでもよい。上記目標検出ネットワークの処理により、入力画像I306における各目標対象の位置座標、すなわち、各目標対象が占める位置領域を決定することができる。
【0075】
例示的には、任意の2つの目標対象の位置領域の重なり度合い(Intersection-over-Union,IoU )が所定の閾値よりも大きいか否かによって、第1のエッジ特徴Emにおける各要素の値を判定してもよい。例えば、所定の閾値を0.3にし、入力画像におけるi番目の目標対象およびj番目の目標対象に対して、i番目の目標対象の位置領域とj番目の目標対象の位置領域との間のIoU値を計算し、当該IoU値が所定の閾値より大きい場合、第1のエッジ特徴Emの要素eijを1として表し、当該IoU値が所定の閾値以下である場合、第1のエッジ特徴Emの要素eijを0として表す。本例では、i及びjは、いずれも1以上K1以下の正の整数であり、i及びjは、同一であっても異なっていてもよい。
【0076】
上記例示的な実施形態により、視覚
図G1={V
m,E
m}を構築することができる。
【0077】
本開示の実施例によれば、
図3Aに示すように、ネットワークモデル300における画像構築モジュール301は、入力質問Q307も取得する。画像構築モジュール301は、上記操作S203における入力質問に基づいて質問図を構築する過程を実行するためにも使用される。例示的には、画像構築モジュール301は、入力問題Qにおける各単語を単語ノードとして、単語符号化(Word Embedding、単語埋め込み)アルゴリズム及び特徴符号化アルゴリズムを用いて入力問題を順次処理し、入力問題Qから、入力問題Qにおける複数の単語のそれぞれの特徴情報を示す複数の単語ノード特徴(例えば、K
2個の単語ノード特徴を有する)を抽出してもよい。次に、依存分析(Dependency ParSing)アルゴリズム3012によって、複数の単語のうちの任意の2つの単語間の依存関係を決定し、任意の2つの単語間の依存関係に基づいて、
を決定する。上記複数の単語のノード特徴から
を構成し、第2のノード特徴V
nと第2のエッジ特徴E
nから質問
図G2309を構成する。
【0078】
以上の例示的な実施形態により、視覚
図G2={V
n,E
n}を構築することができる。
【0079】
本発明の実施例によれば、上述操作S204における視覚図及び質問図に対してマルチモダリティ融合を行う過程は、少なくとも1回のマルチモダリティ融合操作を実行することを含む。ここで、上記少なくとも1回のマルチモダリティ融合操作におけるそれぞれのマルチモダリティ融合操作は、画像畳み込み符号化モジュール302が、第1のノード特徴と第1のエッジ特徴に基づいて、第1の予定ネットワークによって、第1のノード特徴を符号化し、符号化視覚図を取得することを含むことができる。画像畳み込み符号化モジュール302は、第2のノード特徴と第2のエッジ特徴に基づいて、第2の予定ネットワークを用いて、第2のノード特徴を符号化し、符号化質問図を取得する。画像マッチング更新モジュール303は、画像マッチングアルゴリズムによって、符号化視覚図と符号化質問図に対してマルチモダリティ融合を行い、更新視覚図と更新質問図とを取得する。
【0080】
図3Bに示すように、視覚
図G1308は第1の予定ネットワークに入力され、質問
図G2309は第2の予定ネットワークに入力され、この例では、第1の予定ネットワークと第2の予定ネットワークは、いずれも画像畳み込み符号化モジュール302であってもよい。画像畳み込み符号化モジュール302は、画像畳み込み(Graph Convolution Network、GCN)方法に基づいて、異なる画像(視覚図と質問図)のノード特徴の更新および各画像の内部関係の学習を行う。画像畳み込み符号化モジュール302による視覚図に対する符号化過程と質問図に対する符号化過程は、原理的に同一であるので、以下では、画像畳み込み符号化モジュール302による視覚
図G1308に対する符号化過程を例に、例示的に説明する。
【0081】
図3Cは、本開示の実施例による画像畳み込み符号化モジュールの例示的な構造図を概略的に示している。
図3Cに示すように、第1の予定ネットワークとする画像畳み込み符号化モジュール302は、第1の完全接続層(Fully Connected Layer、FC )3021、第1の画像畳み込み層(Graph Convolutional Layer、Gconv
1)3022、及び第2の画像畳み込み層(Gconv
2)3023を含むことができる。例示的には、上述した視覚
図G1308に対する編集操作は、第1の完全接続層3021を用いて、視覚
図G1308の第1のノード特徴V
m3081を所定数dと等しい空間次元数を有する第1の特徴X30811にマッピングすることを含む。第1の画像畳み込み層3022によって第1の特徴X30811を処理し、第2の特徴X’30812を取得する。第2の画像畳み込み層3023によって第2の特徴X’30812を処理し、符号化された第1のノード特徴X’’を取得する。符号化された第1のノード特徴X’’と第1のエッジ特徴E
m3082から符号化視覚
図G1’308’を構成する。
【0082】
例えば、上記した第1の完全接続層3021によって視覚
図G1308の第1のノード特徴V
m3081を空間次元数がdである第1の特徴X30811にマッピングする過程は、数(1)のように表現される。
【0083】
【0084】
σは非線形関数であり、W1は第1の完全接続層の重みパラメータである。
【0085】
本発明の実施例によれば、視覚
図G1308の第1のエッジ特徴E
m3082に応じて、第1の画像畳み込み層3022を用いてノード特徴の更新及び明示的な関係の学習を行うことができる。
図3Cに示すように、上記した第1のノード特徴に対する符号化は、第1のエッジ特徴E
m3082に基づいて、第1のラプラス行列(Graph Laplacians)L30821を構築することをさらに含んでもよい。上記した第1の画像畳み込み層3022を用いて第1の特徴X30811を処理する過程は、第1の画像畳み込み層3022を用いて第1のラプラス行列L30821に基づいて第1の特徴X30811を処理して、第2の特徴X’30812を取得することを含むことができる。第2の特徴X’30812は複数の第1のサブ特徴x
i’を含み、iは1以上K
1以下の整数であり、x
i’はd個の空間次元を有するベクトルとして表現される。上記した第2の特徴X’を算出する過程および第1のラプラス行列を構築する過程は、それぞれ数(2)および数(3)のように表すことができる。
【0086】
【0087】
【0088】
ただし、
は対角行列であり、
σは非線形関数であり、W
2およびW
3は第1の画像畳み込み層の重みパラメータである。
【0089】
入力画像における暗示的な関係を更に学習するために、本開示の実施例によれば、
図3Cに示すように、第1の予定ネットワークである画像畳み込み符号化モジュール302は、第1の関連層(Adj)3024を更に含むことができる。第1の画像畳み込み層3022の処理が終了した後に、第1の関連層3024を用いて、複数の第1のサブ特徴のうち任意の2つの第1のサブ特徴x
i’とx
j’間の関連関係を計算し、任意の2つの第1のサブ特徴間の関連関係に基づいて第1の関係行列A’30812’を決定することができる。但し、
【0090】
具体的には、数(4)のように示している。
【0091】
【0092】
数(4)から分かるように、本例では、xi’とxj’との間のL-2距離(ユークリッド距離)を算出することにより、xi’とxj’との間の関連関係を決定する。他の例では、任意の類似度計算方法を用いて、xi’とxj’との間の関連関係を決定することができ、例えばコサイン類似度などを用いることができるが、ここでは限定しない。本実施例によれば、関連層によって画像ノード間の暗示的な関係行列を学習する。
【0093】
これに基づき、第2の画像畳み込み層3023によって第2の特徴X’30812を処理することができる。例示的には、第2の画像畳み込み層3023により、学習した第1の関係行列A’から深いノード特徴の更新および学習を行い、符号化した第1のノード特徴X’’を取得する。第2の画像畳み込み層3023の更新戦略は、数(5)のように定義することができる。
【0094】
【0095】
ただし、W4は、第2の画像畳み込み層の重みパラメータである。
【0096】
本開示の実施例によれば、第2の予定ネットワークである画像畳み込み符号化モジュール302は、第2の完全接続層、第3の画像畳み込み層、および第4の画像畳み込み層を含み得る。質問
図G2309における第2のノード特徴V
nを符号化する上記過程は、第2の完全接続層を用いて、第2のノード特徴V
nを所定数dに等しい空間次元数の第3の特徴Yにマッピングすることと、第3の画像畳み込み層によって第3の特徴Yを処理して第4の特徴Y’を取得することと、第4の画像畳み込み層によって第4の特徴Y’を処理して符号化された第2のノード特徴Y’’を取得することと、を含むことができる。符号化された第2のノード特徴と第2のエッジ特徴とから符号化質問
図G2’309’が構成される。この過程は、上記において画像畳み込み符号化モジュール302を用いて視覚図を符号化する過程の原理と同じであり、ここでは贅言しない。
【0097】
例示的には、質問図の表示関係を学習するために、上記の第2のノード特徴Vnを符号化することは、第2のエッジ特徴Enに基づいて第2のラプラス行列を構築することをさらに含むことができる。上記第3の画像畳み込み層を用いて第3の特徴を処理することは、第3の画像畳み込み層を用いて第2のラプラス行列に基づいて第3の特徴Yを処理して、複数の第2のサブ特徴yj’を含む第4の特徴Y’を得ることを含み、このとき、jは1以上且つK2以下の整数である。当該過程は、上記において第1の画像畳み込み層を用いて視覚図を処理する過程の原理と同じであり、ここでは贅言しない。
【0098】
さらに、質問図における暗示的な関係を学習するために、例示的には、第2の予定ネットワークである画像畳み込み符号化モジュール302は、第2の関連層をさらに含むことができる。第2のノード特徴を符号化することは、第2の相関層を用いて、複数の第2のサブ特徴のうちの任意の2つのサブ特徴間の相関関係を計算し、任意の2つの第2のサブ特徴間の相関関係に基づいて第2の関係行列を決定することを更に含み得る。第4の画像畳み込み層を用いて第4の特徴を処理することは、第4の画像畳み込み層を用いて第2の関係行列に基づいて第4の特徴を処理して、符号化された第2のノード特徴を取得することを含み得る。当該過程は、上記において第2の画像畳み込み層を用いて視覚図を処理する過程の原理と同じであり、ここでは贅言しない。
【0099】
本開示の実施例によれば、2つの並列な画像畳み込み符号化モジュール302を用いて視覚図と質問図に対してそれぞれ符号化処理を行うため、2層の画像畳み込みネットワークを経た後、第1の予定ネットワークである画像畳み込み符号化モジュール302の出力は1つの符号化視覚
図G1’={X’’,E
m}である。第2の予定ネットワークである画像畳み込み符号化モジュール302の出力は、1つの符号化質問
図G2'={Y’’,E
n}である。ここで、符号化された第1のノード特徴X’’は複数の第3のサブ特徴x
i’’を含み、iは1以上且つK
1以下の整数である。符号化された第2のノード特徴Y’’、複数の第4のサブ特徴y
j’’を含み、jは、1以上且つK
2以下の整数である。
【0100】
図3B及び
図3Cに示すように、本開示の実施例による画像質問応答方法は、2つの並列な画像畳み込み符号化モジュールを用いて視覚図及び質問図をそれぞれ符号化し、2つの並列な符号化モジュールにおいて、視覚図を処理する第1の畳み込み層と質問図を処理する第2の畳み込み層とが重み共有であり、視覚図を処理する第2の畳み込み層と質問図を処理する第4の畳み込み層とが重み共有である。重み共有とは、訓練過程において、同じ画像畳み込み層を用いて2つの画像を更新することであり、当該図畳み込み層の重みパラメータ及び更新は一致である。
【0101】
引き続き
図3A及び
図3Bを参照すると、画像畳み込み符号化モジュール302を紹介した後、画像マッチング更新モジュール303に基づく実装形態を例示的に説明する。画像畳み込み符号化モジュールを経た後、符号化視覚図上の各ノード特徴は、学習した関係に基づいて関連ノードの特徴を融合し、符号化質問図上の各ノード特徴は、学習した関係に基づいて関連ノードの特徴を融合し、ある程度に深い語義特徴を含んでいる。次に、画像マッチング更新モジュール303を用いて2つの異なる画像のノード間のマッチングを行い、2つの異なるモダリティでの特徴を整列させ、モダリティ間の語義ギャップを短縮し、効果的なクロスモーダルの特徴融合を実現する。
【0102】
図3Dは、本開示の実施例による画像マッチング更新モジュールの処理過程の例示的な概略図を概略的に示している。
【0103】
図3Dに示すように、本開示の実施例によれば、上記画像マッチング更新モジュール303が画像マッチングアルゴリズムを用いて符号化視覚図及び符号化質問図をマルチモダリティ融合する過程は、まず画像マッチング(Graph Match)アルゴリズムを用いて符号化された第1のノード特徴及び符号化された第2のノード特徴に対してマッチング処理を行い、複数の第3のサブ特徴の何れかの第3のサブ特徴x
i’’と複数の第4のサブ特徴の何れかの第4のサブ特徴y
j’’との間のマッチング関係を決定し、何れかの第3のサブ特徴x
i’’と何れかの第4のサブ特徴y
j’’との間のマッチング関係に基づいて、マッチング行列S3031を決定し、
である。数(6)のように表すことができる。
【0104】
【0105】
ここで、xi’’∈X’’であり、yj’’∈Y’’であり、K1とK2は、それぞれマッチングを行う2つの画像(視覚図符号化と符号化質問図)のノード数を示す。faは、双線形マッチングを設置し、例えば、数(7)のように示すことができる。
【0106】
【0107】
ただし、
は、学習可能な行列パラメータであり、τは、数値質問のハイパーパラメータである。
【0108】
上記画像マッチング過程により、2つの画像ノード間の
が得られる。そして、注目力メカニズムとマッチング行列Sに基づいて、第1の注目力重みセットS
13032と第2の注目力重みセットS
23033とがそれぞれ決定される。
【0109】
例示的には、
図3Dに示すように、S
1とS
2は、異なる次元でマッチング行列Sに対してSoftmax操作を行って得られる視覚図特徴次元における注意力マッチング(attention map)と、質問図特徴次元における注意力マッチングである。例えば、マッチング行列Sの1-K
1次元に対してSoftmax操作を行い、S
1を取得し、マッチング行列Sの1-K
2次元に対してSoftmax操作を行い、S
2を取得する。
【0110】
次に、第1の注意力重みセットS
1、符号化された第1のノード特徴X’’、及び符号化された第2のノード特徴Y’’に基づいて、更新された第2のノード特徴V
n’を決定し、第2の注意力重みセットS
2、符号化された第1のノード特徴X’’、及び符号化された第2のノード特徴Y’’に基づいて、更新された第1のノード特徴V
m’決定する。更新された第1のノード特徴V
m’と第1のエッジ特徴E
mとから更新視覚
図G1’’308’’を構成し、G
1’’={V
m’,E
m}であり、更新された第2のノード特徴V
n’と第2のエッジ特徴E
nとから更新質問
図G2’’309’’を構成し、G
2’’={V
n’,E
n}である。
【0111】
図3Dに示される例では、S
1とS
2を2つの画像ノード特徴の更新に用いられ、具体的な更新ポリシーは、数(8)のようになり得る。
【0112】
【0113】
ただし、Vm’とVn’は、更新された2つの画像のノード特徴であり、画像マッチング更新モジュールによって出力された2つの新しい画像表現G1’’={Vm’,Em}とG2’’={Vn’,En}を得ることができる。この例では、画像マッチング更新モジュール303は、第3の完全接続層3034と第4の完全接続層3035をさらに含み、数(8)において、W5は、第3の完全接続層3034と第4の完全接続層3035の重みパラメータである。
【0114】
よりよい更新効果を実現するために、本開示の実施例によれば、画像畳み込み符号化モジュール302と画像マッチング更新モジュール303とを直列に接続して1つの全体更新モジュールを構成することができ、予め構築されたネットワークモデルにおいていくつかの全体更新モジュールを直列に接続して画像ノード特徴に対する複数の更新を実現することができ、それにより、より深い語義関係を学習することができる。例えば、p個の全体更新モジュールによってp回の更新を実現し、更新視覚
図G1
p308’’及び更新質問
図G2
p309’’を取得することができ、pは正の整数である。
【0115】
本開示の実施例によれば、上記操作S206において、更新視覚図、更新質問図及び質問特徴に基づいて融合特徴を決定する過程は、画像融合モジュール304が、更新された第1のノード特徴と更新された第2のノード特徴とを連結して併合して併合特徴を取得し、且つ併合特徴に対して予定のプール化操作を行って、推論特徴を取得することを含むことができる。そして、問答モジュール305は、推論特徴と質問特徴とを融合処理して融合特徴を取得する。問答モジュール305が融合処理を行う前に、問答モジュール305は、入力質問Q307を取得し、上記操作S205を実行し、入力質問に基づいて質問特徴を決定することができる。
【0116】
例示的に、画像マッチング更新モジュール303の後、本開示の実施例は、2つの画像の融合のための新しい画像融合モジュール304を設計し、最終的に質問推論に使用される推論特徴(Reasoning Feature)を取得することができる。例えば、まず、単純に2つの画像のノード特徴を連結(Concatenate)して併合してから、例えば最大プール化(Maxpool)操作を用いて推論特徴r310を求め、
である。具体的な融合方法は、数(9)のように表すことができる。
【0117】
【0118】
次に、
図3Bに示すように、問答モジュール305を利用して質問の最終的な推論と解答の予測を行うことができる。例えば、まず、入力質問Q307の各単語をGloveワード符号化3051とBi-GRU特徴符号化3052により、入力質問全体の質問特徴q307’を得て、本例では、
であり、画像融合モジュール305が出力する推論特徴r310を再取得し、本例では、
である。推論特徴rと質問特徴qに対して要素毎に(Element-wise)点乗算を行い、両者を融合する。融合結果をMLP3053に送って最終的な
を取得する。この例では、2層のMLPを用いており、処理過程は、数(10)のように表すことができる。
【0119】
【0120】
訓練済みのネットワークモデル300を使用するとき、予測待ちの入力画像および入力質問を上記ネットワークモデル300に入力して、ネットワークモデル300から相応的な解答カテゴリおよび信頼度を出力し、最も信頼度の高い解答カテゴリを、予測待ちの入力画像および入力質問に対して得られる予測解答とすることが理解され得る。上記入力画像と入力問題に対する処理過程は、訓練段階のサンプル画像およびサンプル質問に対する処理過程と同様であるため、ここでは贅言しない。
【0121】
上記各実施例に基づいて分かるように、本開示の実施例による画像質問応答方法は、視覚図及び質問図を構築することによって異なるモダリティ上の注目点を学習し、それにより、複数の目標がある画像及び複雑な質問によるノイズを低減する。同時に、各モダリティにおける明示的な関係と暗示的な関係を効果的に学習する画像畳み込みに基づく画像符号化モジュールが設計され、また、2つの異なるモダリティ特徴の整列と更新を行う画像マッチング更新モジュール設計され、それによって、モダリティ間の語義ギャップを短縮し、クロスモーダル特徴の融合をより効果的にする。本発明はまた、画像符号化モジュールと画像マッチング更新モジュールとを直列に接続し複数回繰り返すことによって、質問に対するモデルの多段階推論を実現する。
【0122】
図4は、本開示の実施例による画像質問応答装置のブロック図を概略的に示している。
【0123】
図4に示すように、画像質問応答装置400は、取得モジュール410、第1の画像構築モジュール420、第2の画像構築モジュール430、更新モジュール440、質問特徴抽出モジュール450、融合モジュール460、及び予測モジュール470を含むことができる。
【0124】
取得モジュール410は、入力画像及び入力質問を取得するために使用される。
【0125】
第1の画像構築モジュール420は、入力画像に基づいて、第1のノード特徴及び第1のエッジ特徴を含む視覚図を構築するために使用される。
【0126】
第2の画像構築モジュール430は、入力質問に基づいて、第2のノード特徴及び第2のエッジ特徴を含む質問図を構築するために使用される。
【0127】
更新モジュール440は、更新視覚図および更新質問図を得るように、視覚図及び質問図に対してマルチモダリティ融合を行うために使用される。
【0128】
質問特徴抽出モジュール450は、入力質問に基づいて質問特徴を決定するために使用される。
【0129】
融合モジュール460は、更新視覚図、更新質問図および質問特徴に基づいて、融合特徴を決定するために使用される。
【0130】
予測モジュール470は、融合特徴に基づいて入力画像及び入力質問に対する予測解答を生成するために使用される。
【0131】
なお、装置部分の実施例における各モジュール/ユニット/サブユニット等の実施形態、解決された技術的課題、実現された機能、及び達成された技術効果は、それぞれ方法部分の実施例における各対応するステップの実施形態、解決された技術的課題、実現された機能、及び達成された技術的効果と同一又は類似であり、ここでは贅言しない。
【0132】
本発明の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちのいずれか複数、またはこれらのうちの少なくとも一部の機能は、1つのモジュールで実現されることができる。本発明の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちのいずれか1つ以上は、複数のモジュールに分割して実現することができる。本開示の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちの任意の1つ以上は、少なくとも部分的に、例えばフィールドプログラマブルゲートアレイ(FPGA)、プログラマブル論理アレイ(PLA)、システムオンチップ、基板上システム、パッケージ上システム、特定用途向け集積回路(ASIC)などのハードウェア回路として実装されてもよく、または回路を集積またはパッケージ化する他の合理的な方式のハードウェアもしくはファームウェアによって、またはソフトウェア、ハードウェア、およびファームウェアの3つの実装形態のうちの任意の1つもしくはそれらのうちの任意のいくつかの適切な組み合わせによって実装されてもよい。あるいは、本開示の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちの1つ以上は、少なくとも部分的に、実行されたときに相応的な機能を実行可能なコンピュータプログラムモジュールとして実現されてもよい。
【0133】
例えば、取得モジュール410、第1の画像構築モジュール420、第2の画像構築モジュール430、更新モジュール440、質問特徴抽出モジュール450、融合モジュール460および予測モジュール470のうちのいずれか複数を1つのモジュールに統合してもよいし、いずれか1つのモジュールを複数のモジュールに分割してもよい。あるいは、これらのモジュールのうちの1つ以上のモジュールの機能の少なくとも一部は、他のモジュールの機能の少なくとも一部と組み合わされて、1つのモジュールに実現され得る。本開示の実施例によれば、取得モジュール410、第1の画像構築モジュール420、第2の画像構築モジュール430、更新モジュール440、質問特徴抽出モジュール450、融合モジュール460及び予測モジュール470のうちの少なくとも1つは、フィールドプログラマブルゲートアレイ(FPGA)、プログラマブル論理アレイ(PLA)、システムオンチップ、基板上システム、パッケージ上システム、特定用途向け集積回路(ASIC)などのハードウェア回路として少なくとも部分的に実現されてもよく、又は、回路を集積又はパッケージ化する任意の他の合理的な方法などのハードウェア若しくはファームウェア、又は、ソフトウェア、ハードウェア、及びファームウェアの3つの実現形態のうちの任意の1つ、又は、これらのうちの任意のいくつかの適切な組み合わせで実現されてもよい。あるいは、取得モジュール410、第1の画像構築モジュール420、第2の画像構築モジュール430、更新モジュール440、質問特徴抽出モジュール450、融合モジュール460及び予測モジュール470のうちの少なくとも1つは、少なくとも部分的に、実行されたときに相応的な機能を実行可能なコンピュータプログラムモジュールとして実装されてもよい。
【0134】
図5は、本開示の実施例による、上記の方法を実施するように適合されたコンピュータ装置のブロック図を概略的に示している。
図5に示すコンピュータ装置は一例に過ぎず、本開示の実施例の機能及び使用範囲に何ら制限を課すものではない。
【0135】
図5に示すように、本開示の実施例によるコンピュータ装置500は、リードオンリーメモリ(ROM)502に記憶されたプログラム、又は記憶部分508からランダムアクセスメモリ(RAM)503にロードされたプログラムに従って様々な適切な操作及び処理を実行することができるプロセッサ501を含む。プロセッサ501は、例えば、汎用マイクロプロセッサ(例えば、CPU )、命令セットプロセッサ、および/または関連チップセット、および/または特定用途向けマイクロプロセッサ(例えば、特定用途向け集積回路(ASIC))などを含み得る。プロセッサ501は、キャッシュ用途のためのオンボードメモリも含み得る。プロセッサ501は、本開示の実施例による方法フローの異なる操作を実行するための単一の処理ユニット又は複数の処理ユニットを含んでもよい。
【0136】
RAM503には、装置500の操作に必要な各種プログラムやデータが記憶される。プロセッサ501、ROM502、およびRAM503は、バス504を介して互いに接続されている。プロセッサ501は、ROM502及び/又はRAM503のプログラムを実行することにより、本発明の実施例による方法の流れによる様々な操作を実行する。なお、前記プログラムは、ROM502およびRAM503以外のメモリに格納されていてもよい。プロセッサ501は、前記1つ以上のメモリに記憶されたプログラムを実行することにより、本発明の実施例による方法フローの様々な操作を実行することもできる。
【0137】
本開示の実施例によれば、装置500は、バス504に接続された入出力(I/O)インタフェース505をさらに含むことができる。また、装置500は、I/Oインタフェース505に接続された、キーボード、マウスなどを含む入力部分506、例えばカソード線管(CRT)、液晶ディスプレイ(LCD)などおよびスピーカなどを含む出力部分507、ハードディスクなどを含む記憶部分508、例えばLANカード、モデムなどのネットワークインタフェースカードを含む通信部分509のうちの1つ以上を含んでもよい。通信部分509は、インターネットなどのネットワークを介して通信処理を行う。ドライバ510は、必要に応じて、I/Oインタフェース505に接続される。読み出されたコンピュータプログラムが、必要に応じて記憶部分508にインストールされるように、例えば磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア511は、需要に応じてドライブ510に実装される。
【0138】
本開示の実施例によれば、本開示の実施例による方法のフローは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例は、コンピュータ読み取り可能な記憶媒体にインストールされたコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例で、このコンピュータプログラムは、通信部分509によってネットワークからダウンロードしてインストールされてもよいし、取り外し可能な媒体511からインストールされてもよい。このコンピュータプログラムがプロセッサ501によって実行されると、本開示の実施例のシステムにおいて限定した上記機能が実行される。本開示の実施例によれば、前述したシステム、デバイス、装置、モジュール、ユニット等は、コンピュータプログラムモジュールにより実現することができる。
【0139】
本開示は、さらに、非一時的なコンピュータ読み取り可能な記憶媒体を提供しており、当該非一時的なコンピュータ読み取り可能な記憶媒体は、上記実施例に記載のデバイス/装置/システムに含まれてもよく、デバイス/装置/システムに組み込まれずに単独で存在してもよい。上記非一時的なコンピュータ読み取り可能な記憶媒体には、一つ又は複数のプログラムが記録されており、上記一つ又は複数のプログラムが実行されると、本開示の実施例による方法を実現する。
【0140】
本開示の実施例によれば、非一時的なコンピュータ読み取り可能な記憶媒体は、不揮発性のコンピュータ読み取り可能な記憶媒体であってもよく、例えば、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、携帯型コンパクトディスクROM(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含み得るが、これらに限定されない。本開示において、非一時的なコンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶する、任意の有形媒体であってもよく、このプログラムは、命令実行システム、装置又はデバイスによって又はそれらと関連して使用される。例えば、本開示の実施例によれば、非一時的なコンピュータ読み取り可能な記憶媒体は、前記したROM502および/またはRAM503およびRAM503以外の1つ以上のメモリを含むことができる。
【0141】
図面におけるフローチャート及びブロック図は、本開示の様々な実施例によるシステム、方法、及びコンピュータプログラム製品の実現可能な構造、機能及び操作を示している。この点に関して、フローチャート又はブロック図における各ブロックは、モジュール、セグメント、又はコードの一部を表すことができ、モジュール、セグメント、又はコードの一部は、特定な論理機能を実現するための1つ又は複数の実行可能命令を含む。これに代えて、別の実現では、ブロックに表記された機能は、図面に示す順序とは異なる順序で生じ得ることにも留意すべきである。例えば、連続して示される2つのブロックは、実際には、機能に応じて、実質的に並列に実行されてもよく、逆順に実行されてもよい。ブロック図又はフローチャートの各ブロック、及びブロック図又はフローチャートのブロックの組合せは、特定な機能又は操作を実行する専用ハードウェアベースのシステムで実現されてもよく、又は専用ハードウェアとコンピュータ命令との組合せにより実現されてもよいことにも留意すべきである。
【0142】
当業者は、本開示に明示的に記載されていなくても、本開示の様々な実施例及び/又は特許請求の範囲に記載された特徴について様々な組合せ及び/又は結合で実施してもよいことを理解するだろう。特に、本開示の様々な実施例及び/又は特許請求の範囲に記載された特徴は、本開示の精神及び教示から逸脱することなく、様々な組合せ及び/又は結合を行うことができる。これらの組合せ及び/又は結合はいずれも本開示の範囲に含まれる。
【0143】
以上、本開示の実施例を説明した。しかしながら、これらの実施例は、説明のためのものであり、本開示の範囲を限定するものではない。以上、各実施例を個別に説明したが、各実施例における各手段を適宜組み合わせて用いることができないことを意味するわけではない。本開示の範囲は、添付の特許請求の範囲及びその均等物によって限定される。当業者は、本開示の範囲から逸脱することなく、様々な変更及び修正を行うことができ、これらの変更及び修正も本開示の範囲に属する。