(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-05
(45)【発行日】2023-12-13
(54)【発明の名称】クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体
(51)【国際特許分類】
G06V 30/194 20220101AFI20231206BHJP
G06N 20/00 20190101ALI20231206BHJP
G06T 7/00 20170101ALI20231206BHJP
【FI】
G06K9/66
G06N20/00 130
G06T7/00 350C
(21)【出願番号】P 2020215106
(22)【出願日】2020-12-24
【審査請求日】2020-12-24
【審判番号】
【審判請求日】2023-01-06
(31)【優先権主張番号】202010238730.0
(32)【優先日】2020-03-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【氏名又は名称】上田 邦生
(72)【発明者】
【氏名】ニウ, ギョ―チェン
(72)【発明者】
【氏名】へー, ボレイ
(72)【発明者】
【氏名】シャオ, シンヤン
【合議体】
【審判長】千葉 輝久
【審判官】樫本 剛
【審判官】川崎 優
(56)【参考文献】
【文献】米国特許出願公開第2020/0097604(US,A1)
【文献】Di Qi et al., “ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data”, arXiv:2001.07966, 2020.01.23, https://arxiv.org/abs/2001.07966
【文献】Gen Li et al., “Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training”, arXiv:1908.06066, 2019.12.02, https://arxiv.org/abs/1908.06066
【文献】Junyang Lin et al., “InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining”, arXiv:2003.13198v1, 2020.03.30, https://arxiv.org/abs/2003.13198v1
【文献】Mandar Joshi et al., “SpanBERT: Improving Pre-training by Representing and Predicting Spans”, arXiv:1907.10529, 2020.01.18, https://arxiv.org/abs/1907.10529
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06N 20/00
G06F 16/50 - 16/56
(57)【特許請求の範囲】
【請求項1】
複数の語彙データ及び複数の画像を含むサンプルセットを取得するステップと、
前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するステップであって、それぞれの前記トレーニングサンプルは、少なくとも一つの前記語彙データに対応する少なくとも一つの前記画像との組合せであるステップと、
前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるステップと、
トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うステップと、を含
み、
前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるステップが、
それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおいて前記画像が呈している各オブジェクトに対して画像特徴を抽出し、及び前記語彙データにおける各テキストユニットに対してテキスト特徴を抽出するステップと、
各オブジェクトの前記画像特徴と各テキストユニットの前記テキスト特徴とを結合し、入力特徴を取得するステップと、
前記入力特徴に基づいて、第1のトレーニングタスクを実行することで、前記語意モデルをトレーニングするステップと、を含み、
前記第1のトレーニングタスクが、
それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、前記入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換、及び重なる表示領域を有する少なくとも二つのオブジェクトを選択し、前記入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップと、
置換後に取得した入力特徴を前記語意モデルに入力することで、前記語意モデルから出力された第1の語意ベクトルを取得するステップと、
前記第1の語意ベクトルに基づいて、選択されたテキストユニット及び選択されたオブジェクトを予測するステップと、
予測の正確性に基づいて、前記語意モデルのパラメータを調整するステップと、
を含むクロスモーダル処理方法。
【請求項2】
前記前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するステップは、
各前記語彙データを対応する語彙データにより説明される前記画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得するステップと、
固定的に設定された前記語彙データをランダムに特定された前記画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得、及び/又は、固定的に設定された前記画像をランダムに特定された前記語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得するステップと、を含
む請求項
1に記載のクロスモーダル処理方法。
【請求項3】
前記入力特徴は、マッチングマークをさらに含み、前記前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングするステップは、
前記入力特徴に基づいて、第2のトレーニングタスクを実行し、前記語意モデルをトレーニングするステップを含み、
前記第2のトレーニングタスクは、
それぞれのトレーニングサンプルに対して、対応する入力特徴における前記マッチングマークを設定値にしてから、前記語意モデルに入力することで、前記語意モデルから出力された第2の語意ベクトルを取得するステップと、
前記第2の語意ベクトルにおける前記マッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測するステップと、
予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、前記語意モデルのパラメータを調整するステップと、を含
む請求項
2に記載のクロスモーダル処理方法。
【請求項4】
前記対応するトレーニングサンプルにおける前記画像が呈している各オブジェクトに対して画像特徴を抽出するステップは、
前記画像が呈している各オブジェクトに対して、対応する関心領域の画像コンテンツ情報をプール化した視覚特徴と、対応するオブジェクトの画像内での展示位置を示す空間座標を取得するステップと、
前記視覚特徴と前記空間座標とを結合し、オブジェクト特徴を生成するステップと、
各オブジェクトの前記オブジェクト特徴、各オブジェクトの間の相互の順序関係を指示するオブジェクトの順序特徴及び、対応するオブジェクトが画像に属することを指示する設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するステップと、を含
む請求項
1に記載のクロスモーダル処理方法。
【請求項5】
前記各オブジェクトの前記オブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するステップの前に、
それぞれのオブジェクトに対して、構築されたシードプールから対応するオブジェクトを説明する基準テキストを検出するステップと、
前記基準テキストの文字内容を前記オブジェクト特徴に融合するステップと、をさらに含
む請求項
4に記載のクロスモーダル処理方法。
【請求項6】
前記前記語彙データにおける各テキストユニットに対してテキスト特徴を抽出するステップは、
前記語彙データにおける各テキストユニットに対して、対応するテキストユニットに含まれる文字を指示する文字特徴と、対応するテキストユニットの語順を指示する位置特徴を取得するステップと、
各テキストユニットの前記文字特徴、前記位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するステップと、を含
む請求項
1に記載のクロスモーダル処理方法。
【請求項7】
前記各テキストユニットの前記文字特徴、前記位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するステップの前に、
それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を検出するステップであって、前記基準画像で対応するテキストユニットにより説明されるオブジェクトを呈しているステップと、
前記基準画像の画像内容を前記文字特徴に融合するステップと、をさらに含
む請求項
6に記載のクロスモーダル処理方法。
【請求項8】
前記レーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うステップは、
トレーニングされた語意モデルを用いて、語彙データに基づいて、対応する画像を検出するステップ、
または、トレーニングされた語意モデルを用いて、画像に基づいて、対応する画像を説明する語彙データを生成するステップ、を含
む請求項1から
7の何れかに記載のクロスモーダル処理方法。
【請求項9】
複数の語彙データ及び複数の画像を含むサンプルセットを取得するための取得モジュールと、
前記サンプルセットに基づいて、少なくとも一つの前記語彙データと対応する少なくとも一つの前記画像との組合せである複数のトレーニングサンプルを生成するための生成モジュー
ルと、
前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるためのトレーニングモジュールと、
トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うための処理モジュールと、を含
み、
前記トレーニングモジュールが、
それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおける前記画像が呈している各オブジェクトに対して画像特徴を抽出し、及び前記語彙データにおける各テキストユニットに対してテキスト特徴を抽出するための抽出ユニットと、
各オブジェクトの前記画像特徴と各テキストユニットの前記テキスト特徴とを結合し、
入力特徴を取得するための結合ユニットと、
前記入力特徴に基づいて、第1のトレーニングタスクを実行し、前記語意モデルをトレーニングするためのトレーニングユニットと、を含み、
前記第1のトレーニングタスクが、
それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、前記入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換、及び重なる表示領域を有する少なくとも二つのオブジェクトを選択し、前記入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップと、
置換後に取得した入力特徴を前記語意モデルに入力することで、前記語意モデルから出力された第1の語意ベクトルを取得するステップと、
前記第1の語意ベクトルに基づいて、選択されたテキストユニット及び/又は選択されたオブジェクトを予測するステップと、
予測の正確性に基づいて、前記語意モデルのパラメータを調整するステップと、
を含むクロスモーダル処理装置。
【請求項10】
前記生成モジュールは、具体的に、
各前記語彙データを対応する語彙データにより説明される前記画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得し、及び、固定的に設定された前記語彙データをランダムに特定された前記画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得する、及び/又は、固定的に設定された前記画像をランダムに特定された前記語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得するように構成され
る請求項
9に記載のクロスモーダル処理装置。
【請求項11】
前記入力特徴には、マッチングマークをさらに含まれ、
前記トレーニングモジュールは、具体的に、
前記入力特徴に基づいて、第2のトレーニングタスクを実行し、前記語意モデルをトレーニングするように構成され、
前記第2のトレーニングタスクは、
それぞれのトレーニングサンプルに対して、対応する入力特徴における前記マッチングマークを設定値にしてから、前記語意モデルに入力することで、前記語意モデルから出力された第2の語意ベクトルを取得するステップと、
前記第2の語意ベクトルにおける前記マッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測するステップと、
予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、前記語意モデルのパラメータを調整するステップと、
を含
む請求項
10に記載のクロスモーダル処理装置。
【請求項12】
前記抽出ユニットは、
前記画像が呈している各オブジェクトに対して、対応する関心領域の画像コンテンツ情報をプール化した視覚特徴と、対応するオブジェクトの画像内での展示位置を示す空間座標を取得するための取得サブユニットと、
前記視覚特徴と前記空間座標とを結合し、オブジェクト特徴を生成するための結合サブユニットと、
各オブジェクトの前記オブジェクト特徴、各オブジェクトの間の相互の順序関係を指示するオブジェクトの順序特徴及び、対応するオブジェクトが画像に属することを指示する設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するための生成サブユニットと、をさらに含
む請求項
9に記載のクロスモーダル処理装置。
【請求項13】
前記抽出ユニットは、
それぞれのオブジェクトに対して、構築されたシードプールから対応するオブジェクトを説明する基準テキストを検出するための検出サブユニットと、
前記基準テキストの文字内容を前記オブジェクト特徴に融合するための融合サブユニットと、をさらに含
む請求項
12に記載のクロスモーダル処理装置。
【請求項14】
前記取得サブユニットは、前記語彙データにおける各テキストユニットに対して、対応するテキストユニットに含まれる文字を指示する文字特徴と、対応するテキストユニットの語順を指示する位置特徴を取得するようにさらに構成され、
前記生成サブユニットは、各テキストユニットの前記文字特徴、前記位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するようにさらに構成され
る請求項
12に記載のクロスモーダル処理装置。
【請求項15】
前記検出サブユニットは、それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を検出するようにさらに構成され、前記基準画像は、対応するテキストユニットにより説明されるオブジェクトを呈しており、
前記融合サブユニットは、前記基準画像の画像内容を前記文字特徴に融合するようにさらに構成され
る請求項
13に記載のクロスモーダル処理装置。
【請求項16】
前記処理モジュールは、具体的に、
トレーニングされた語意モデルを用いて、語彙データに基づいて対応する画像を検出する、又は、トレーニングされた語意モデルを用いて、画像に基づいて対応する画像を説明する語彙データを生成するように構成され
る請求項
9から
15の何れかに記載のクロスモーダル処理装置。
【請求項17】
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが、請求項1から
8の何れかに記載のクロスモーダル処理方法を実行できることを特徴とする、電子機器。
【請求項18】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は
、コンピュータに請求項1から
8のいずれかに記載のクロスモーダル処理方法を実行させることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項19】
コンピュータ上で動作しているときに、請求項1から
8のいずれかに記載のクロスモーダル処理方法を前記コンピュータに実行させることを特徴とする、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、コンピュータの技術分野に関し、特に、自然言語処理の技術分野に関する。具体的には、クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体に関する。
【背景技術】
【0002】
私たちが住んでいる世界は、マルチモーダルな世界であり、文字、視覚などの異なるモーダルの内容は、私たちの生活に溢れている。人工知能技術の急速な発展に伴い、例えば、視覚-言語のようなマルチモーダル処理に基づくニーズと要求は、ますます高まっている。
【0003】
しかしながら、現在のマルチモーダル処理方法では、モデルのトレーニングを行う際に、十分な語意情報を捉えることができず、テキストと視覚との2つのモーダル間の語意的な関連も確立されておらず、モデルのトレーニング効果がよくない。
【発明の概要】
【0004】
クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体を提供する。
【0005】
第1の態様は、トレーニング語彙データと対応する画像との組合わせをトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した、クロスモーダル処理方法を提供する。
【0006】
本出願の第2の態様は、クロスモーダル処理装置を提案する。
【0007】
本出願の第3の態様は、電子機器を提案する。
【0008】
本出願の第4の態様は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提案する。
【0009】
本出願の第1の態様の実施例は、複数の語彙データ及び複数の画像を含むサンプルセットを取得するステップと、前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するステップであって、それぞれの前記トレーニングサンプルは、少なくとも一つの前記語彙データに対応する少なくとも一つの前記画像との組合せであるステップと、前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることによって、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるステップと、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うステップと、を含む、クロスモーダル処理方法を提案する。
【0010】
本出願の第2の態様の実施例は、複数の語彙データ及び複数の画像を含むサンプルセットを取得するための取得モジュールと、前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するための生成モジュールであって、それぞれの前記トレーニングサンプルは、少なくとも一つの前記語彙データと対応する少なくとも一つの前記画像との組合せである生成モジュールと、前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることによって、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるためのトレーニングモジュールと、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うための処理モジュールと、を含む、クロスモーダル処理装置を提案する。
【0011】
本出願の第3の態様の実施例は、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行されることによって、前記少なくとも一つのプロセッサが、第1の態様のクロスモーダル処理方法を実行可能である、電子機器を提案する。
【0012】
本出願の第4の態様の実施例は、前記コンピュータ命令が、前記コンピュータに、第1の態様に記載のクロスモーダル処理方法を実行させる、ことを特徴とする、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提案する。
【0013】
本出願の実施例に係る技術案は、以下の有益な効果を含むことができる。すなわち、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行い、トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。
【0014】
なお、本発明の概要に記載の内容は、本開示の実施例の肝心な特徴又は重要な特徴を限定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の明細書により理解されやすくなる。
【図面の簡単な説明】
【0015】
図面は、本方案をよりよく理解するためのものであり、本出願に対する限定を構成するものではない。
【
図1】本出願の実施例に係るクロスモーダル処理方法のフローチャートである。
【
図2】本出願の実施例に係る他のクロスモーダル処理方法のフローチャートである。
【
図3】本出願の実施例に係るクロスモーダル処理のアーキテクチャ説明図である。
【
図4】本出願の実施例に係る別のクロスモーダル処理方法のフローチャートである。
【
図5】本出願の実施例に係る画像とテキストとが対応する説明図である。
【
図6】本出願の実施例に係る別のクロスモーダル処理方法的フローチャートである。
【
図7】本出願の実施例に係るクロスモーダル処理装置の概略構成図である。及び
【
図8】本出願の実施例に係るクロスモーダル処理方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0016】
以下、本出願の例示的な実施例を、図面を参照して説明する。理解を容易にするためにその中には本出願の実施例の様々な詳細を含んでいるが、それらは単なる例示であると見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解されたい。同様に、明確かつ簡潔するため、以下の説明では、周知の機能及び構成の説明を省略する。
【0017】
以下、本出願の実施例に係るクロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体を、図面を参照して説明する。
【0018】
図1は、本出願の実施例に係るクロスモーダル処理方法のフローチャートである。インタアクティブ時に使用される用語をモーダルする。クロスモーダルとは、テキスト、画像、ビデオなどの多くの手段とシンボルキャリアを組合わせてインタラクティブにする現象を指し、それに応じて、クロスモーダルは、例えば、画像とテキスト情報を同時に含むなど、少なくとも2つのモーダルの情報を同時に含む。
【0019】
図1に示すように、当該方法は、以下のステップを含む。
【0020】
ステップ101において、複数の語彙データ及び複数の画像を含むサンプルセットを取得する。
【0021】
語彙データは、少なくとも一つのテキストユニットを含む。
【0022】
可能な一実現形態として、マルチメディアデータセットから異なるモーダルのデータを収集して、複数の画像と対応する複数の語彙データを含むサンプルセットを生成することができる。語彙データは、対応する画像の内容を説明するように構成される。
【0023】
ステップ102において、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせである。
【0024】
具体的には、サンプルセットに含まれる複数の語彙データ及び複数の画像に基づいて、語彙データと対応する画像とを組合せ、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせである。
【0025】
ステップ103において、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させる。
【0026】
本実施例において、語彙データと画像とを組合せトレーニングサンプルを生成し、トレーニングサンプルにテキストの情報と対応する画像の情報とを同時に含むようにすることで、語意モデルがトレーニングする際に語彙データと画像との組合せ情報に基づいたトレーニングを行うようにし、モデルが語彙データと画像との組合せの語意ベクトルを学習可能にする。語彙データと画像との組合せの語意ベクトルには、2種のモーダル間の語意的な関連を含む。語意モデルのトレーニング効果が向上し、従来技術では、語意モデルのトレーニングを行う際に、語彙データと画像に基づいて独立して認識モデルを構築するとともにトレーニングし、それぞれのモーダルに対応する認識モデルの結果を重み付けして対応する語意情報を取得するので、トレーニングして取得したモデルが語彙データと画像との間の語意的な関連を認識できず、すなわち、語彙データと対応する画像との間の語意的な関連が分割され、モデルのトレーニング効果が悪くなり、認識効果が悪くなってしまう。
【0027】
本実施例におけるトレーニングサンプルは、少なくとも1つの語彙モータと任意の少なくとも1つの画像との組合わせであってもよい。語彙データと画像の組合わせ方が異なると、対応するトレーニングタスクも異なり、異なるトレーニングタスクごとに対して、語意モデルをトレーニングする。これについては、後続の実施例で詳しく紹介する。
【0028】
ステップ104において、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。
【0029】
本実施例において、トレーニングされた語意モデルは、語彙データと画像との組合せの語意ベクトルを学習し、語彙データと画像との間の語意的な関連を学習する。トレーニングされた語意モデルを具体的な語彙データと画像とのクロスモーダル処理に適用する。例えば、画像に基づいて、対応する画像を説明する語彙データを生成し、或いは、語彙データに基づいて、対応する画像を検出する。
【0030】
選択可能には、実際に適用するシーンでは、異なる認識タスクに応じて、認識を行うための画像及び語彙データを識別することができる。モデルの認識結果に応じて、モデルのパラメータを微調整することで、そのシーンの認識タスクにおけるモデルの認識効果を向上させる。
【0031】
本実施例に係るクロスモーダル処理方法において、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。トレーニング語彙データと対応する画像との組合せをトレーニングすることによって、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。
【0032】
上記の実施例に基づいて、本実施例は、別のクロスモーダル処理方法を提供する。本実施例において、語意モデルに実行されるものを第1のトレーニングタスクとして説明する。
【0033】
図2は、本出願の実施例に係る他のクロスモーダル処理方法のフローチャートである。
【0034】
図2に示すように、当該方法は、以下ステップを含むことができる。
【0035】
ステップ201において、複数の語彙データ及び複数の画像を含むサンプルセットを取得する。
【0036】
ステップ202において、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。ここで、それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせである。
【0037】
具体的には、上記の実施例におけるステップ101~102を参照することができるが、原理が同じであるので、ここでは説明を省略する。
【0038】
ステップ203において、それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおける画像が呈している各オブジェクトに対して画像特徴を抽出し、及び、語彙データにおける各テキストユニットに対してテキスト特徴を抽出する。
【0039】
本実施例において、それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおける画像が呈している各オブジェクトに対して画像特徴を抽出する。オブジェクトとは、画像が呈している、例えば、人、ビル、樹木及び車両などの実体を指す。具体的には、画像が呈している各オブジェクトに対して、視覚特徴と空間座標を取得する。可能な一実現形態として、それぞれのトレーニングサンプルに対して、サンプルに含まれる画像に対して、高速目標検出モデルFaster R-CNNで画像における各オブジェクトの領域、及び視覚特徴と空間座標である領域に対応する特徴を認識する。視覚特徴は、対応する関心領域の画像コンテンツ情報をFaster R-CNNモデルでプール化したものであり、空間座標は、対応するオブジェクトの画像内での展示位置を示すように構成される。視覚特徴と空間座標とを結合し、各オブジェクトのオブジェクト特徴を生成し、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成する。オブジェクトの順序特徴は、各オブジェクトの間の相互の順序関係を指示するように構成され、第1のモーダルマーカーは、対応するオブジェクトが対応する画像に属することを指示するように構成される。
【0040】
図3に示すように、トレーニングサンプルにおける画像は、
図3の画像である。
図3に示される画像を語意分割モデルで認識し、画像が呈しているオブジェクトには、T1に指示される建物building、T2に指示されるドアdoor、T3に指示される自転車bicycle、T4に指示されるバスケットbasket及びT5に指示される女子womanが含まれることが認識され、各オブジェクトに対して特徴を抽出して画像が呈している各オブジェクトのオブジェクト特徴を取得しV
building、V
door、V
woman、V
bicycle、及びV
basketとマーカーする。
画像における各オブジェクトは順序がないため、画像における各オブジェクトの順序特徴は、一つの固定IDに対応するベクトルを用いることができ、例えば、全て1と設定することができる。第1のモーダルマーカーは、例えば、マーカー[IMG]と設定する。順序特徴と第1のモーダルマーカーは、他の実現形態を有してもよく、本実施例では、限定しない。さらに、各オブジェクトに対応するオブジェクト特徴、順序特徴及び第1のモーダルマーカーを結合すると、各オブジェクトの画像特徴を生成する。
【0041】
それぞれのトレーニングサンプルに対して、語彙データにおける各テキストユニットに対してテキスト特徴を抽出する。具体的には、語彙データにおける各テキストユニットに対して、文字特徴と位置特徴を取得する。文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成され、各テキストユニットの文字特徴、位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成する。第2のモーダルマーカーは、対応するテキストユニットが対応する語彙データに属することを指示するように構成される。
【0042】
例えば、一つの語彙データは、A woman riding a bike with a dog in a basketであり、当該語彙データを複数のテキストユニットに分け、それぞれのテキストユニットには、1つまたは複数でもよい所定数の文字を含み、各テキストユニットの文字特徴を取得てもよい。即ち、各テキストユニットには、所定数の文字を含み、語彙データに含まれる全てのテキストユニットを語順に従い、2から順に1コードずつ増加し、語彙データに12つのテキスト単位があるとして、対応する位置特徴は、2、3、4、5、……12と13に順次コード化される。
図3に示すように、設定された第2のモーダルマーカーは、例えば [Text]である。
【0043】
本実施例では、それぞれのトレーニングサンプルに対して、画像が呈する各オブジェクトのオブジェクト特徴を生成し、対応するテキスト特徴をさらに生成し、オブジェクト特徴が生成された後、オブジェクト特徴に含まれるベクトルの次元がテキスト特徴の次元よりも大きければ、各オブジェクトのオブジェクト特徴を、対応するテキスト特徴の次元と同一に圧縮することで、次元の統一を実現し、データの処理を容易にする。
【0044】
ステップ204において、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、入力特徴を取得する。
【0045】
具体的には、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、語意モデルの入力特徴を取得することで、語意モデルが画像と語彙データの組合せ特徴をトレーニングする。これにより、語意モデルが画像と語彙データとの間の語意的な関連が取得可能となり、語意モデルの認識効果が向上した。
【0046】
例えば、
図3に示すように、語彙データにおけるそれぞれのテキストユニットに対して、A2において対応する文字特徴、B2において対応する第2のモーダルマーカー及びC2において対応する位置特徴を結合して対応するテキストユニットのテキスト特徴を生成する。画像におけるそれぞれのオブジェクトに対して、A1において対応するオブジェクト特徴、B1において対応する第1のモーダルマーカー及びC1において対応する位置特徴を結合して対応するオブジェクトの画像特徴を生成する。さらに、それぞれのオブジェクトの画像特徴及びそれぞれのテキストユニットのテキスト特徴を加えて結合し、入力特徴を取得しする。入力特徴は、ベクトルで示される。
【0047】
ステップ205において、入力特徴に基づいて、第1のトレーニングタスクを実行することによって、語意モデルをトレーニングする。
【0048】
本実施例は、第1のトレーニングタスクと第2のトレーニングタスクを含む。本実施例では、第1のトレーニングタスクに基づいて、語意モデルをトレーニングする。第2のトレーニングタスクによるモデルに対するトレーニング過程は、後続の実施例でさらに具体的に紹介する。
【0049】
第1のトレーニングタスクは、それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換するステップ、及び/又は、少なくとも一つのオブジェクトを選択し、入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップを含む。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたテキストユニット及び/又は選択されたオブジェクトを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。
【0050】
具体的には、第1の可能な実現形態として、語彙データのテキストユニットに対するマスクに基づいてモデルをトレーニングする。具体的には、それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換する。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたテキストユニットを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。
【0051】
第2の可能な実現形態として、画像におけるオブジェクトに対するマスクに基づいてモデルをトレーニングする。具体的には、それぞれのトレーニングサンプルの画像から、少なくとも一つのオブジェクトを選択する。画像におけるオブジェクトの表示領域は空間に交差して重なる表示領域が存在する場合もあれば、交差して重なる領域が存在しない場合もあるため、2つのシーンで説明する。
【0052】
あるシーンでは、画像におけるオブジェクトの表示領域は、空間に交差し重なる表示領域が存在すると、2つのオブジェクトの間に語意的な関連が存在するため、選択されたオブジェクトは、重なる表示領域を有する少なくとも2つのオブジェクトを含み、マスク領域の粒度を増加させ、マスク領域に含まれる語意情報を増加させることができる。
【0053】
別のシーンでは、画像におけるオブジェクトは、互いに重なる表示領域がないため、選択されたオブジェクトは、何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトである。画像におけるオブジェクトが全部互いに独立したオブジェクトである場合でも、選択されたオブジェクト、即ち、選択された少なくとも1つのオブジェクトが何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトであると特定でき、マスク領域の粒度を増加させることで、マスク領域に含まれる語意情報を増加させる。
【0054】
入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換する。置換後に取得した入力特徴を語意モデルに入力することにで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたオブジェクトを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。
【0055】
第3の可能な実現形態では、語彙データと画像を同時にマスクすることに基づいて、モデルをトレーニングする。具体的には、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換し、及び、少なくとも一つのオブジェクトを選択し、入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換する。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、マスクされたテキスト部分及びマスクの画像部分に対応するテキストを予測する。予測の正確性に基づいて、語意モデルのパラメータを調整し、少なくとも一つのテキストユニットと画像ユニットに対してともにマスクする。マスクの粒度が粗いため、マスク部分に含まれる語意情報を増加させ、モデルが語彙データと画像との間の語意的な関連をよりよく学習することを可能とし、同時に、語意モデルのパラメータ調整の速度が向上し、モデルのトレーニング効果が向上した。
【0056】
例えば、
図3において語彙データと画像を同時にマスクすることに基づいて、モデルをトレーニングする。
図3に示すように、語彙データにおける4つの連続したテキストユニットをマスクし、即ち、各テキストユニットに対応する文字woman、 riding、a及びbikeを設定された画像マスク[mask]で置換し、4つのテキストユニットに対するマスクを完成する。同時に、画像における3つのオブジェクト、即ち、T3に対応するオブジェクトである自転車bicycle、T4に対応するオブジェクトであるバスケットbasket、T5に対応するオブジェクトである女子woman、対応する画像特徴におけるオブジェクト特徴V
woman,V
bicycle及びV
basketに対して、設定された画像マスク[mask]で置換する。従って、本実施例におけるマスクの粒度がさらに粗く、語彙データに対して、少なくとも一つのテキストユニットをマスクし、画像に対して、画像における少なくとも一つのオブジェクトをマスクし、より豊かな語意情報を捉えることができる。しかし、従来技術において、マスク粒度は、単一の単語または単一の物体オブジェクトであるので、さらに大きな語意ユニットの場合には、うまく対応できず、例えば、哈爾濱について、「爾」の字が単独にマスク置換され、「哈」と「濱」で「爾」を予測すれば、比較的簡単で、あまり価値がないが、一方、「哈爾濱」という句全体がマスクされると、この句の前後の言葉で「哈爾濱」を予測すれば、「哈爾濱」について、よりよい語意を学習することができる。
【0057】
さらに、置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたテキストユニットと選択されたオブジェクトを予測する。
図3のように、マスクされたテキストユニットに対応する文字は、woman、riding、a及びbikeであり、語意モデルから出力された第1の語意ベクトルに基づいて予測した文字は、woamn、riding、a及びbikeであり、予測結果が完全に正確である。画像特徴におけるマスクされたオブジェクト特徴に対応するオブジェクトは、basketの画像、bicycleの画像及びwomanの画像であり、語意モデルが予測して出力するのは、対応する説明テキストbasket、bicycle及びwomanであり、予測結果も完全に正確である。実際に適用される過程では、モデルのトレーニング過程において、モデルの正確性は、最初は低いが、予測結果の正確性に基づいて、モデルが収斂するまで絶えず語意モデルのパラメータを調整するので、語意モデルの損失関数は、最小であり、認識の正確性は、最も高くなる。
【0058】
ステップ206では、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。
【0059】
本実施例において、トレーニングされた語意モデルは、語彙データと画像との組合せの語意ベクトルを学習し、語彙データと画像との間の語意的な関連を学習し、さらに、トレーニングされた語意モデルを具体的な語彙データと画像とのクロスモーダル処理に適用する。本実施例では、2種の適用シーンが提供される。
【0060】
あるシーンでは、トレーニングされた語意モデルを用いて、語彙データに基づいて、対応する画像を検索する。具体的には、一致する画像と語彙データが入力モデルであるか否かを判断する必要があり、モデルの出力に基づいて両者が一致するか否かを特定する。即ち、既知の語彙データに対応する特徴と、未知の画像の初期化特徴とを語意モデルに入力し、語意モデルから出力された既知の語彙データと未知の画像との組合せの語意ベクトルにおける対応する画像部分のデータに基づいて、未知の画像が呈しているオブジェクトを予測し、予測されたオブジェクトに基づいて、複数の未知の画像から当該未知の画像を検出する。これにより、既知の語彙データに対応する画像を特定する。
【0061】
別のシーンでは、トレーニングされた語意モデルを用いて、画像に基づいて、対応する画像を説明する語彙データを生成する。具体的には、既知の画像に対応する特徴と、未知の語彙データの初期化特徴とを語意モデルに入力し、モデルから出力された既知の画像と未知の語彙データとの組合せの語意ベクトルにおける対応する語彙データ部分のデータに基づいて、対応する既知の画像を説明するための未知の説明語彙データを特定する。
【0062】
なお、未知の語彙データとは、当該語彙データがどの画像を説明するのかが不明であり、語彙データに対応する画像が未知であることを指す。
【0063】
選択可能には、実際に適用するシーンでは、異なる認識タスクに応じて、認識を行うための画像及び語彙データを識別することができる。モデルの認識結果に応じて、モデルのパラメータを微調整することで、そのシーンの認識タスクにおけるモデルの認識効果を向上させる。
【0064】
本実施例に係るクロスモーダル処理方法では、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行い、トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させる。これにより、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。
【0065】
上記の実施例に基づいて、本実施例は、別のクロスモーダル処理方法を提供する。本実施例では、予めシードプールを構築し、シードプールに基づいて、画像とテキストを情報合わせするとともに、情報融合を行う。画像特徴とテキスト特徴に含まれる情報量を高め、モデルのトレーニング効果を向上させる。
【0066】
図4は、本出願の実施例に係る別のクロスモーダル処理方法のフローチャートである。
【0067】
図4に示すように、当該方法は、以下ステップを含む。
【0068】
ステップ301において、複数の語彙データ及び複数の画像を含むサンプルセットを取得する。
【0069】
ステップ302において、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。ここで、それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせである。
【0070】
ステップ303において、それぞれのトレーニングサンプルに対して、画像が呈している各オブジェクトに対して、視覚特徴と空間座標を取得し、視覚特徴と空間座標とを結合し、オブジェクト特徴を生成する。
【0071】
可能な一実現形態では、それぞれのトレーニングサンプルについて、サンプルに含まれる画像に対して、高速目標検出モデルFaster R-CNNで画像における各オブジェクトの領域、及び視覚特徴と空間座標である領域に対応する特徴を認識する。ここで、視覚特徴は、対応する関心領域の画像コンテンツ情報をFaster R-CNNモデルでプール化したものであり、空間座標は、対応するオブジェクトの画像内での展示位置を示すように構成される。視覚特徴と空間座標とを結合し、対応するオブジェクトのオブジェクト特徴を生成する。
【0072】
本実施例では、それぞれのトレーニングサンプルに対して、画像が呈している各オブジェクトのオブジェクト特徴を生成し、対応するテキスト特徴をさらに生成する。オブジェクト特徴が生成された後、オブジェクト特徴に含まれるベクトルの次元がテキスト特徴の次元よりも大きければ、各オブジェクトのオブジェクト特徴dを、対応するテキスト特徴の次元と同一に圧縮することで、次元の統一を実現し、データの処理を容易にする。テキスト特徴の生成方法については、後続のステップで具体的に説明する。
【0073】
ステップ304において、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを捜索し、基準テキストの文字内容を対応するオブジェクト特徴に融合する。
【0074】
基準テキストは、対応するオブジェクトを説明するように構成される。
【0075】
本実施例において、シードプールは、予め構築されたものであり、可能な一実現形態として、大量の画像サンプルを取得し、高速目標検出モデルFaster R-CNNでそれぞれの大量画像に対して各境界ボックスboundingboxを抽出するとともに、それぞれのboundingboxに対応するサブ画像と対応する文字説明の関係マッピングを構築する。
図5に示すように、基準テキストの野球のバットbaseballbatとS1で示す境界ボックスboundingboxとは、対応関係を有し、基準テキストの人personとS2で示す境界ボックスとは、対応関係を有し、基準テキストのスポーツボールsport ballとS3で示す境界ボックスとは、対応関係を有し、基準テキストの野球グローブとS4で示す境界ボックスとは、対応関係を有する。同じ理由により、それぞれの画像において、各境界ボックスと対応する基準テキストとの対応関係を取得でき、一つの基準テキストは、複数の物体に対応することができる。例えば、バスケットは、様々な外形と造形を有するが、異なる画像のバスケットは、対応する基準テキストが全部バスケットでもよいため、我々は、一定規模の一対多のマッピングを構築した。それぞれの物体の基準テキストは、複数の異なる図に対応することができるので、基準テキストと画像との間のマッピング関係を含むシードプールを構築することができる。
【0076】
例えば、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを捜索し、基準テキストの文字内容は、300次元の特徴ベクトルであり、対応するオブジェクトのオブジェクト特徴は、128次元の特徴ベクトルである場合には、マークアップテキストに対応する300次元の特徴ベクトルを対応する128次元のオブジェクト特徴に融合させた後で、取得した対応するオブジェクトのオブジェクト特徴のベクトルは依然として128次元を維持することで、基準テキストの文字内容を対応するオブジェクト特徴に融合させた後もオブジェクト特徴の次元は変わらないが、オブジェクト特徴に含まれる情報量が増加することを実現し、画像特徴に含まれる情報が向上した。
【0077】
ステップ305において、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成する。
【0078】
オブジェクトの順序特徴は、各オブジェクトの間の相互の順序関係を指示するように構成され、第1のモーダルマーカーは、対応するオブジェクトが対応する画像に属することを指示するように構成される。第1のモーダルマーカーは、例えば、[IMG]のような設定された特殊マークであってもよい。
【0079】
可能な一実現形態として、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、結合の方式で各オブジェクトの画像特徴を生成することができ、画像特徴に含まれる情報を増加させた。
【0080】
具体的には、画像特徴の例について説明すると、
図2に対応する実施例のステップ203を参照することができるが、原理が同じであるため、ここでは説明を省略する。
【0081】
ステップ306において、語彙データにおける各テキストユニットに対して、文字特徴と位置特徴を取得する。
【0082】
文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成される。
【0083】
ステップ307において、それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を捜索し、基準画像の画像内容を対応するテキストユニットの文字特徴に融合する。
【0084】
基準画像は、対応するテキストユニットに説明されるオブジェクトを呈し、マークアップ画像の画像内容は、画像が呈しているオブジェクトの大きさ、色、形状等を含む。
【0085】
例えば、それぞれのオブジェクトに対して、シードプールで予めそれぞれのテキストユニットと対応するマークアップ画像との対応関係が既に構築されたため、構築されたシードプールから捜索した対応する基準画像を見て、例えば、
図3に示すように、テキストユニットに含まれる文字は、バスケットbasketであり、シードプールで検出することで、複数のマークアップ画像を特定する。
図3では3種類のみを模式的に示すが、捜索した複数のマークアップ画像の画像内容を対応するテキストユニットの文字特徴に融合する。具体的には、基準画像の画像内容は、300次元の特徴ベクトルに対応し、対応するテキストユニットの文字特徴は、128次元の特徴ベクトルの場合には、画像内容に対応する300次元の特徴ベクトルを文字特徴が128次元の特徴ベクトルに融合させた後に取得した文字特徴のベクトルは、依然として128次元を維持する。これにより、対応する画像内容を文字特徴に融合した後も文字特徴の次元は変わらないが、文字特徴に含まれる情報が増加するため、テキスト特徴に含まれる情報、及びテキストとオブジェクトとの間の語意的な関連性が向上する。さらに、後続のステップでテキスト特徴と画像特徴とを結合した入力特徴に含まれる語意情報量も増加するので、入力特徴に基づいて、トレーニングを行う語意モデルのトレーニング効果を向上させることができる。
【0086】
ステップ308において、各テキストユニットの文字特徴、位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成する。
【0087】
文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成され、第2のモーダルマーカーは、対応するテキストユニットが対応する語彙データに属することを指示するように構成され、例えば、設定マーク[Text]である。
【0088】
本実施例において、各テキストユニットの文字特徴、位置特徴及び設定された第2のモーダルマーカーを結合し、各テキストユニットのテキスト特徴を生成し、テキスト特徴に含まれる情報を増加させた。
【0089】
ステップ309において、各オブジェクトの画像特徴及び各テキストユニットのテキスト特徴を結合し、入力特徴を取得する。
【0090】
具体的には、各オブジェクトの画像特徴及び各テキストユニットのテキスト特徴を結合し、語意モデルの入力特徴を取得することで、語意モデルが画像と語彙データとの組合せ特徴をトレーニングする。これにより、語意モデルが画像と語彙データとの間の語意的な関連を取得可能となり、語意モデルの認識効果が向上した。
【0091】
例えば、
図3に示すように、語彙データにおけるそれぞれのテキストユニットに対して、A2において対応する文字特徴、B2において対応する第2のモーダルマーカー及びC2において対応する位置特徴を結合して対応するテキストユニットのテキスト特徴を生成する。画像におけるそれぞれのオブジェクトに対して、A1において対応するオブジェクト特徴、B1において対応する第1のモーダルマーカー及びC1において対応する位置特徴を結合して対応するオブジェクトの画像特徴を生成する。さらに、それぞれのオブジェクトの画像特徴及びそれぞれのテキストユニットのテキスト特徴を加えて結合し、入力特徴を取得する。入力特徴は、ベクトルで示され、テキスト情報と画像情報との聨合方式を実現し、モデルがテキストと画像との間の関連情報を学習することを可能とし、後続のモデルのトレーニング効果が向上した。
【0092】
ステップ310において、入力特徴に基づいて、第1のトレーニングタスクを実行することによって、語意モデルをトレーニングする。
【0093】
具体的には、第1の可能な実現形態として、語彙データのテキストユニットに対するマスクに基づいてモデルをトレーニングする。具体的には、それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換し、置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたテキストユニットを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。
【0094】
第2の可能な実現形態では、画像におけるオブジェクトに対するマスクに基づいてモデルをトレーニングする。具体的には、それぞれのトレーニングサンプルの画像から、少なくとも一つのオブジェクトを選択する。画像におけるオブジェクトの表示領域は、空間に交差して重なる表示領域が存在する場合もあれば、交差して重なる領域が存在しない場合もあるため、2つのシーンで説明する。
【0095】
あるシーンでは、画像におけるオブジェクトの表示領域は、空間に交差し重なる表示領域が存在すると、2つのオブジェクトの間に語意的な関連が存在するため、選択されたオブジェクトは、重なる表示領域を有する少なくとも2つのオブジェクトを含む。このため、マスク領域の粒度を増加させ、マスク領域に含まれる語意情報を増加させることができる。
【0096】
別のシーンでは、画像におけるオブジェクトは、互いに重なる表示領域がないため、選択されたオブジェクトは、何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトであり、画像におけるオブジェクトが全部互いに独立したオブジェクトの場合でも、選択されたオブジェクト、即ち、選択された少なくとも1つのオブジェクトが何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトを特定でき、マスク領域の粒度を増加させることで、マスク領域に含まれる語意情報を増加させる。
【0097】
入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換する。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたオブジェクトを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。
【0098】
第3の可能な実現形態として、語彙データと画像を同時にマスクすることに基づいて、モデルをトレーニングする。具体的には、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換し、及び、少なくとも一つのオブジェクトを選択し、入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換する。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたテキストユニットと選択されたオブジェクトを予測する。予測の正確性に基づいて、語意モデルのパラメータを調整し、テキストユニットと画像ユニットに対してともにマスクすることで、正確性を予測し、モデルが語彙データと画像との間の語意的な関連をより迅速に学習することを可能とし、語意モデルのパラメータ調整の速度が向上し、モデルのトレーニング効果が向上した。
【0099】
例えば、
図3において語彙データと画像を同時にマスクすることに基づいて、モデルをトレーニングし、
図3に示すように、語彙データにおける4つの連続したテキストユニットをマスクし、即ち、各テキストユニットに対応する文字woman、riding、a及びbikeを設定された画像マスク[mask]で置換し、4つのテキストユニットに対するマスクを完成する。同時に、画像における3つのオブジェクトの画像特徴におけるオブジェクト特徴に対して、設定された画像マスク[Mask]で置換する。従って、本実施例におけるマスクの粒度がさらに粗く、語彙データに対して、少なくとも一つのテキストユニットをマスクし、画像に対して、画像における少なくとも一つのオブジェクトをマスクし、より豊かな語意情報を捉えることができる。しかし、従来の技術では、マスク粒度は、単一の単語または単一の物体オブジェクトであり、さらに大きな語意ユニットの場合にはうまく対応できないため、例えば、哈爾濱について、「爾」の字が単独にマスク置換され、「哈」と「濱」で「爾」を予測すると、比較的簡単で、あまり価値がないが、「哈爾濱」という句全体がマスクされ、この句の前後の言葉で「哈爾濱」を予測すれば、「哈爾濱」について、よりよい語意を学習することができる。
【0100】
さらに、置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたテキストユニットと選択されたオブジェクトを予測する。
図3のように、マスクされたテキストユニットに対応する文字は、woman、riding、a及びbikeであり、語意モデルから出力された第1の語意ベクトルに基づいて予測した文字は、woamn、riding、a及びbikeであり、予測結果が完全に正確である。画像特徴におけるマスクされたオブジェクト特徴に対応するオブジェクトは、basket、bicycle及びwomanであり、語意モデルは、マスクされたオブジェクトに対して対応する説明情報を予測する。予測して出力するのは、basket、bicycle及びwomanであり、予測結果も完全に正確である。実際に適用される過程では、モデルのトレーニング過程において、モデル認識の正確性は、最初は低いが、予測結果の正確性に基づいて、モデルが収斂するまで絶えず語意モデルのパラメータを調整すると、語意モデルの損失関数は、最小となり、認識の正確性は、最も高くなる。
【0101】
ステップ311において、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。
【0102】
具体的には、ステップ309~ステップ311では、入力特徴に基づいて、第1のトレーニングタスクに対する操作は、
図2に対応する実施例におけるステップ204~206を参照することができるが、原理が同じであるため、ここでは説明を省略する。
【0103】
本実施例では、予め設定されたシードプールにより、各オブジェクトの画像特徴に対応する基準テキストの文字内容を融合させて、含まれる情報を増加させる。同じ理由により、各テキストユニットのテキスト特徴に対応する基準画像の画像内容を融合させて、含まれる情報を増加させることで、情報量を増加させたテキスト特徴と画像特徴とを繋ぎ合わせた後、取得した入力特徴に含まれる語意情報量も増加する。従来技術に比べ、テキストと画像を統合して視覚で示す場合、2種のモーダルの特徴間の対応関係が構築されず、2種のモーダルの特徴が分かれたものとなる。このため、語意モデルがクロスモーダル時のモーダル間の語意関係を学習できず、モデルのトレーニング効果が悪くなる。一方、本出願では、構築されたシードプールにより、テキストと画像特徴を揃えるとともに互いに融合させると、語意モデルがクロスモーダル時のモーダル間の語意関係を学習できないため、語意モデルのトレーニング効果を向上させることができる。
【0104】
本出願の実施例に係るクロスモーダル処理方法において、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上する。また、予め設定されたシードプールに基づいて、情報量を増加させたテキスト特徴と画像特徴を生成し、テキスト特徴と画像特徴とを結合した後、取得した入力特徴に含まれる語意情報量も増加する。これにより、入力特徴に基づいて、トレーニングを行う語意モデルのトレーニング効果を向上させることができる。
【0105】
上記の実施例により、本実施例は、別のクロスモーダル処理方法を提供し、本実施例において、第2のトレーニングタスクで語意モデルをトレーニングする過程を説明する。
【0106】
図6は、本出願の実施例に係る別のクロスモーダル処理方法のフローチャートである。
【0107】
図6に示すように、当該方法は、以下のステップを含む。
【0108】
ステップ601において、複数の語彙データ及び複数の画像を含むサンプルセットを取得する。
【0109】
語彙データは、少なくとも一つのテキストユニットを含む。
【0110】
可能な一実現形態として、マルチメディアデータセットから異なるモーダルのデータを収集して、複数の画像及び対応する複数の語彙データを含むサンプルセットを生成することができ、語彙データは、対応する画像の内容を説明するように構成される。
【0111】
ステップ602では、サンプルセットに基づいて、語彙データが画像と一致するトレーニングサンプル及び語彙データが画像と一致しないトレーニングサンプルを生成する。
【0112】
本実施例では、第2のトレーニングタスクでモデルをトレーニングし、用いられるトレーニングサンプルは、正例のトレーニングサンプル及び負例のトレーニングサンプルを含む。大量の正例のトレーニングサンプル及び負例のトレーニングサンプルを用いることでにより、モデルのトレーニング効果及びモデルのトレーニング速度を向上させることができる。
【0113】
具体的には、サンプルセットに基づいて、各語彙データを対応する語彙データにより説明される画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得し、正例のトレーニングサンプルとする。
【0114】
本実施例において、語彙データが画像と一致しないトレーニングサンプル、即ち、反例のトレーニングサンプルとして、3種の可能な生成形態がある。第1の可能な実現形態として、固定的に設定された語彙データをランダムに特定された画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得する。
【0115】
第2の可能な実現形態として、固定的に設定された画像をランダムに特定された語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得する。
【0116】
第3の可能な実現形態として、固定的に設定された語彙データをランダムに特定された画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得し、及び固定的に設定された画像をランダムに特定された語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得する。
【0117】
ステップ603において、それぞれのトレーニングサンプルに対して、画像が呈している各オブジェクトに対して、視覚特徴と空間座標を取得する。
【0118】
可能な一実現形態として、それぞれのトレーニングサンプルに対して、サンプルに含まれる画像に対して、高速目標検出モデルFaster R-CNNで画像における各オブジェクトの領域、及び視覚特徴と空間座標である領域に対応する特徴を認識する。視覚特徴は、対応する関心領域の画像コンテンツ情報をFaster R-CNNモデルでプール化したものであり、空間座標は、対応するオブジェクトの画像内での展示位置を示すように構成される。
【0119】
ステップ604において、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを捜索し、基準テキストの文字内容を対応するオブジェクト特徴に融合する。
【0120】
基準テキストは、対応するオブジェクトを説明するように構成される。
【0121】
本実施例において、シードプールは、予め構築されたものであり、可能な一実現形態として、大量の画像サンプルを取得し、高速目標検出モデルFaster R-CNNでそれぞれの大量画像に対して各境界ボックスboundingboxを抽出するとともに、それぞれのboundingboxに対応するサブピクチャ及び対応する文字説明の関係マッピングを構築する。
図5に示すように、基準テキストの野球のバットbaseballbatとS1で示す境界ボックスboundingboxとは、対応関係を有し、基準テキストの人personとS2で示す境界ボックスとは、対応関係を有し、基準テキストのスポーツボールsport ballとS3で示す境界ボックスとは、対応関係を有し、基準テキストの野球グローブとS4で示す境界ボックスとは、対応関係を有する。同じ理由により、それぞれの画像において、各境界ボックスと対応する基準テキストとの対応関係を取得でき、一つの基準テキストは、複数の物体に対応することができる。例えば、バスケットは、様々な外形と造形を有するが、異なる画像のバスケットは、対応する基準テキストが全部バスケットでもよいため、我々は、一定規模の一対多のマッピングを構築した。それぞれの物体の基準テキストは、複数の異なる図に対応することができ、基準テキストと画像との間のマッピング関係を含むシードプールを構築することができる。
【0122】
例えば、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを捜索する。基準テキストの文字内容は、300次元の特徴ベクトルであり、対応するオブジェクトのオブジェクト特徴は、128次元の特徴ベクトルである場合には、マークアップテキストに対応する300次元の特徴ベクトルを対応する128次元のオブジェクト特徴に融合させた後も、取得した対応するオブジェクトのオブジェクト特徴のベクトルは依然として128次元に維持されるので、基準テキストの文字内容を対応するオブジェクト特徴に融合させた後もオブジェクト特徴の次元は変わらないが、オブジェクト特徴に含まれる情報が増加するため、画像特徴に含まれる情報が向上した。
【0123】
ステップ605において、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成する。
【0124】
オブジェクトの順序特徴は、各オブジェクトの間の相互の順序関係を指示するように構成され、第1のモーダルマーカーは、対応するオブジェクトが対応する画像に属することを指示するように構成される。第1のモーダルマーカーは、例えば、[IMG]のような設定された特殊マークであってもよい。
【0125】
可能な一実現形態として、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、結合の方式で各オブジェクトの画像特徴を生成することができる。
【0126】
具体的には、画像特徴の例についての説明は、
図2に対応する実施例におけるステップ203を参照することができるが、原理が同じであるため、ここでは説明を省略する。
【0127】
ステップ606において、語彙データにおける各テキストユニットに対して、文字特徴と位置特徴を取得する。
【0128】
文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成される。
【0129】
ステップ607において、それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を捜索し、基準画像の画像内容を対応するテキストユニットの文字特徴に融合する。
【0130】
基準画像は、対応するテキストユニットに説明されるオブジェクトを呈し、マークアップ画像の画像内容は、画像が呈しているオブジェクトの大きさ、色、形状等を含む。
【0131】
例えば、それぞれのオブジェクトに対して、シードプールで予めそれぞれのテキストユニットと対応するマークアップ画像との対応関係が既に構築されたため、構築されたシードプールから捜索した対応する基準画像を見て、例えば、
図3に示すように、テキストユニットに含まれる文字は、バスケットbasketであり、シードプールで検出することで、複数のマークアップ画像を特定する。
図3では3種類のみを模式的に示すが、捜索した複数のマークアップ画像の画像内容を対応するテキストユニットの文字特徴に融合する。具体的には、基準画像の画像内容は、300次元の特徴ベクトルに対応し、対応するテキストユニットの文字特徴は、128次元の特徴ベクトルである場合には、画像内容に対応する300次元の特徴ベクトルを文字特徴が128次元の特徴ベクトルに融合させた後も、取得した文字特徴のベクトルは、依然として128次元を維持するため、対応する画像内容を文字特徴に融合した後も、文字特徴の次元が変わらないが、文字特徴に含まれる情報が増加するので、テキスト特徴に含まれる情報、及びテキストとオブジェクトとの間の語意的な関連性が向上し、後続のステップでテキスト特徴と画像特徴とを結合した入力特徴に含まれる語意情報量も増加するため、入力特徴に基づいて、トレーニングを行う語意モデルのトレーニング効果を向上させることができる。
【0132】
ステップ608において、各テキストユニットの文字特徴、位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成する。
【0133】
文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成される。第2のモーダルマーカーは、対応するテキストユニットが対応する語彙データに属することを指示するように構成され、例えば、設定マーク[Text]である。
【0134】
ステップ609において、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、入力特徴を取得する。
【0135】
具体的には、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、語意モデルの入力特徴を取得することで、語意モデルに画像と語彙データとの組合せ特徴をトレーニングさせ、語意モデルが画像と語彙データとの間の語意的な関連を取得可能となり、語意モデルの認識効果が向上した。
【0136】
例えば、
図3に示すように、語彙データにおけるそれぞれのテキストユニットに対して、A2において対応する文字特徴、B2において対応する第2のモーダルマーカー及びC2において対応する位置特徴を結合して対応するテキストユニットのテキスト特徴を生成する。画像におけるそれぞれのオブジェクトに対して、A1において対応するオブジェクト特徴、B1において対応する第1のモーダルマーカー及びC1において対応する位置特徴を結合して対応するオブジェクトの画像特徴を生成する。さらに、それぞれのオブジェクトの画像特徴及びそれぞれのテキストユニットのテキスト特徴を結合し、入力特徴を取得し、入力特徴は、ベクトルで示される。
【0137】
ステップ610において、入力特徴には、マッチングマークをさらに含まれ、入力特徴に基づいて、第2のトレーニングタスクを実行することによって、語意モデルをトレーニングする。
【0138】
入力特徴には、マッチングマークをさらに含まれ、マッチングマークは予め設定された学習可能なベクトルであり、例えば、学習類別(classification,CLS)ベクトルである。
【0139】
第2のトレーニングタスクは、以下の内容を含み、それぞれのトレーニングサンプルに対して、対応する入力特徴に含まれるマッチングマークを設定値にしてから、語意モデルに入力することで、語意モデルから出力された第2の語意ベクトルを取得し、第2の語意ベクトルにおけるマッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測する。予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、語意モデルのパラメータを調整し、第2のトレーニングタスクの絶えないトレーニングとモデルのパラメータを調整する。これにより、語意モデルを収斂させ、予測の一致結果と実際の一致結果との間の差異を最小にすることにより、語彙データと対応する画像の一致特定を実現し、画像と語彙データに対応する検索の分野に適用可能である。
【0140】
語意モデルは、入力特徴に基づいて、マッチングマークの値を調整し、値を調整した後のマッチングマークの値は、トレーニングサンプルにおける語彙データと画像との一致性を指示するように構成されることができる。
【0141】
ステップ611において、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。
【0142】
本実施例において、トレーニングされた語意モデルは、語彙データと画像との組合せの語意ベクトルを学習し、語彙データと画像との間の語意的な関連を学習する。さらに、トレーニングされた語意モデルを具体的な語彙データと画像とのクロスモーダル処理に適用する。本実施例においては、2つの適用シーンを提供する。
【0143】
あるシーンでは、トレーニングされた語意モデルを用いて、語彙データに基づいて、対応する画像を検索する。具体的には、一致する画像と語彙データ入力モデルであるか否かを判断する必要があり、モデルから出力されたCLSの値に基づいて、両者が一致するか否かを特定する。即ち、既知の語彙データに対応する特徴及び未知の画像の初期化特徴を語意モデルに入力し、語意モデルから出力された既知の語彙データと未知の画像との組合せの語意ベクトルにおける対応する画像部分のデータに基づいて、未知の画像が呈しているオブジェクトを予測し、予測されたオブジェクトに基づいて、複数の未知の画像から当該未知の画像を検出することで、既知の語彙データに対応する画像を特定する。
【0144】
別のシーンでは、トレーニングされた語意モデルを用いて、画像に基づいて、対応する画像を説明する語彙データを生成する。具体的には、既知の画像に対応する特徴及び未知の語彙データの初期化特徴を語意モデルに入力し、モデルから出力された既知の画像と未知の語彙データとの組合せの語意ベクトルにおける対応する語彙データ部分のデータに基づいて、対応する既知の画像を説明するための未知の説明する語彙データを特定する。
【0145】
未知の語彙データとは、当該語彙データがどの画像を説明するように構成されるかが不明であり、語彙データに対応する画像が未知であることを指す。
【0146】
選択可能には、実際に適用するシーンでは、異なる認識タスクに応じて、認識を行うための画像及び語彙データを識別することができる。モデルの認識結果に応じて、モデルのパラメータを微調整することで、そのシーンの認識タスクにおけるモデルの認識効果を向上させる。
【0147】
トレーニングの効果を向上させるために、第1のトレーニングタスクと第2のトレーニングタスクは、いずれも実行することができ、2つのトレーニングタスクは、反復的に行われる。第1のトレーニングタスクの予測結果と第2のトレーニングタスクの一致性予測結果とに基づいて、語意モデルの損失値を算出する。モデルの損失値は、2つのトレーニングタスクに対応する損失関数の損失値から算出される。算出されたモデルの損失値に基づいて、2つのタスクの損失関数をともに収斂させるように、語意モデルのパラメータを調整することで、モデルトレーニングの効果を向上させる。
【0148】
本実施例に係るクロスモーダル処理方法において、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させる。トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。
【0149】
上記の実施例を実現するため、本出願は、クロスモーダル処理装置をさらに提案する。
【0150】
図7は、本出願の実施例に係るクロスモーダル処理装置の概略構成図である。
【0151】
図7に示すように、当該装置は、取得モジュール71と、生成モジュール72と、トレーニングモジュール73と、処理モジュール74と、を含む。
【0152】
取得モジュール71は、複数の語彙データ及び複数の画像を含むサンプルセットを取得するように構成される。
【0153】
生成モジュール72は、前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するように構成される。それぞれの前記トレーニングサンプルは、少なくとも一つの前記語彙データと対応する少なくとも一つの前記画像との組合せである。
【0154】
トレーニングモジュール73は、前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるように構成される。
【0155】
処理モジュール74は、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うように構成される。
【0156】
本出願の実施例の可能な一実現形態として、上記のトレーニングモジュール73は、それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおいて前記画像が呈している各オブジェクトに対して画像特徴を抽出し、語彙データにおける各テキストユニットに対してテキスト特徴を抽出するための抽出ユニットと、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、入力特徴を取得するための結合ユニットと、入力特徴に基づいて、第1のトレーニングタスクを実行することによって、語意モデルをトレーニングするためのトレーニングユニットと、を含み、第1のトレーニングタスクは、それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換する、及び/又は少なくとも一つのオブジェクトを選択し、入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップと、置換後に取得した入力特徴を語意モデルに入力することによって、語意モデルから出力された第1の語意ベクトルを取得するステップと、第1の語意ベクトルに基づいて、選択されたテキストユニット及び/又は選択されたオブジェクトを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整するステップと、を含む。
【0157】
可能な一実現形態として、選択されたオブジェクトは、重なる表示領域を有する少なくとも二つのオブジェクトを含み、または、選択されたオブジェクトは、何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトである。
【0158】
可能な一実現形態として、上記の生成モジュール72は、具体的には、各語彙データを対応する語彙データにより説明される画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得し、及び、固定的に設定された語彙データをランダムに特定された画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得し、及び/又は、固定的に設定された画像をランダムに特定された語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得するように構成される。
【0159】
他の可能な一実現形態として、入力特徴には、マッチングマークをさらに含まれ、上記のトレーニングモジュール73は、具体的には、入力特徴に基づいて、第2のトレーニングタスクを実行することによって、語意モデルをトレーニングするようにさらに構成され、前記第2のトレーニングタスクは、それぞれのトレーニングサンプルに対して、対応する入力特徴におけるマッチングマークを設定値にしてから、語意モデルに入力することによって、語意モデルから出力された第2の語意ベクトルを取得するステップと、第2の語意ベクトルにおけるマッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測するステップと、予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、語意モデルのパラメータを調整するステップと、を含む。
【0160】
可能な一実現形態として、抽出ユニットは、以下をさらに含み、取得サブユニットは、画像が呈している各オブジェクトに対して、視覚特徴と空間座標を取得するように構成され、視覚特徴は、対応する関心領域の画像コンテンツ情報をプール化したものであり、空間座標は、対応するオブジェクトの画像内での展示位置を示すように構成される。
【0161】
結合サブユニットは、視覚特徴と空間座標とを結合し、オブジェクト特徴を生成するように構成される。
【0162】
生成サブユニットは、各オブジェクトの前記オブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するように構成され、オブジェクトの順序特徴は、各オブジェクトの間の相互の順序関係を指示するように構成され、第1のモーダルマーカーは、対応するオブジェクトが画像に属することを指示するように構成される。
【0163】
他の可能な一実現形態として、抽出ユニットは、以下をさらに含み、検出サブユニットは、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを検出するように構成され、基準テキストは、対応するオブジェクトを説明するように構成される。
【0164】
融合サブユニットは、基準テキストの文字内容をオブジェクト特徴に融合するように構成される。
【0165】
他の可能な一実現形態として、取得サブユニットは、語彙データにおける各テキストユニットに対して、文字特徴と位置特徴を取得するようにさらに構成され、文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成される。
【0166】
生成サブユニットは、各テキストユニットの文字特徴、位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するようにさらに構成される。
【0167】
他の可能な一実現形態として、検出サブユニットは、それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を検出するようにさらに構成され、基準画像で対応するテキストユニットにより説明されるオブジェクトを呈している。
【0168】
融合サブユニットは、基準画像の画像内容を文字特徴に融合するようにさらに構成される。
【0169】
他の可能な一実現形態として、上記の処理モジュール74は、具体的には、トレーニングされた語意モデルを用いて、語彙データに基づいて対応する画像を検出する、または、トレーニングされた語意モデルを用いて、画像に基づいて対応する画像を説明する語彙データを生成するように構成される。
【0170】
上記のクロスモーダル処理方法の実施例に対する解釈説明も当該実施例のクロスモーダル処理装置に適用されるが、ここでは説明を省略する。
【0171】
本出願の実施例に係るクロスモーダル処理方法において、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることによって、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行い、トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。
【0172】
上記の実施例を実現するために、本出願の実施例は、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含む電子機器であって、前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行されることによって、前記少なくとも一つのプロセッサが前記方法実施例における前記のクロスモーダル処理方法を実行可能である、電子機器をさらに提供する。
【0173】
本出願の第4の態様の実施例には、コンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体が提案されており、前記コンピュータ命令は、前記コンピュータに上記の方法実施例に記載のクロスモーダル処理方法を実行させるように構成される。
【0174】
本出願の実施例により、本出願は、電子機器と読み取り可能な記憶媒体をさらに提供する。
【0175】
図8に示すように、本出願の実施例に係るクロスモーダル処理方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
【0176】
図8に示すように、当該電子機器は、一つ又は複数のプロセッサ801と、メモリ802と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、部分的な必要な操作(例えば、サーバアレイ、一セットのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。
図8では、一つのプロセッサ801を例とする。
【0177】
メモリ802は、本出願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶されることにより、前記少なくとも一つのプロセッサが本出願に係るクロスモーダル処理方法を実行することができる。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願に係るクロスモーダル処理方法を実行させるためのコンピュータ命令が記憶されている。
【0178】
メモリ802は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例に係るXXXの方法に対応するプログラム命令/モジュール(例えば、
図7に示す取得モジュール71、生成モジュール72、トレーニングモジュール73、及び処理モジュール74)などの、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するように構成されることができる。プロセッサ801は、メモリ802に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例に係るクロスモーダル処理方法を実現する。
【0179】
メモリ802は、ストレージプログラム領域とストレージデータ領域とを含むことができ、ここで、ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、クロスモーダル処理方法に基づく電子機器の使用によって作成されたデータなどを記憶することができる。メモリ802は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ802は、プロセッサ801に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してクロスモーダル処理方法を実行する電子機器に接続することができる。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組合わせを含むが、これらに限定されない。
【0180】
クロスモーダル処理方法を実行する電子機器は、入力装置803と輸出装置804とをさらに含むことができる。プロセッサ801、メモリ802、入力装置803、及び出力装置804は、バス又は他の方式を介して接続することができ、
図8では、バスを介して接続することを例とする。
【0181】
入力装置803は、入力された数字又は文字情報を受信し、クロスモーダル処理方法のための電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置804は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
【0182】
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合わせで実現することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
【0183】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
【0184】
ユーザとのインタラクションを提供するために、コンピュータ上で、ここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するように構成されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0185】
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されてもい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
【0186】
コンピュータシステムは、クライアント側とサーバとを含むことができる。クライアント側とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。
【0187】
本出願の実施例の技術案によれば、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。
【0188】
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
【0189】
上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組合わせ、サブコンビネーション、及び置換を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改良などは、いずれも本出願の保護範囲内に含まれるべきである。