(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-07
(54)【発明の名称】クロスモーダル検索方法、クロスモーダル検索装置、コンピュータデバイス、及びコンピュータプログラム
(51)【国際特許分類】
G06F 16/9032 20190101AFI20241030BHJP
【FI】
G06F16/9032
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024532539
(86)(22)【出願日】2022-11-29
(85)【翻訳文提出日】2024-05-30
(86)【国際出願番号】 CN2022134918
(87)【国際公開番号】W WO2023168997
(87)【国際公開日】2023-09-14
(31)【優先権主張番号】202210222089.0
(32)【優先日】2022-03-07
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】▲梅▼ 柯
(72)【発明者】
【氏名】▲鄭▼ ▲還▼
(72)【発明者】
【氏名】李 明
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA10
5B175HA05
(57)【要約】
本願の実施例は、クロスモーダル検索方法及び関連デバイスを開示し、当該クロスモーダル検索方法は、第1モーダルデータを取得するステップと、第1モーダルデータの内容情報に基づいて第2モーダルデータベースで検索し、第1集合を取得するステップであって、当該第1集合には、第1モーダルデータの内容情報にマッチングする少なくとも1つの第2モーダルデータが含まれるステップと、第1モーダルデータのセマンティック情報に基づいて第2モーダルデータベースで検索し、第2集合を取得するステップであって、当該第2集合には、第1モーダルデータのセマンティック情報にマッチングする少なくとも1つの第2モーダルデータが含まれるステップと、第1集合と第2集合とをマージし、第1モーダルデータに対応するクロスモーダル検索結果を取得するステップと、を含む。本願の実施例により、クロスモーダル検索の効率、及びクロスモーダル検索結果の多様性、全面性をアップできる。
【特許請求の範囲】
【請求項1】
コンピュータデバイスによって実行されるクロスモーダル検索方法であって、
第1モーダルデータを取得するステップと、
前記第1モーダルデータの内容情報に基づいて第2モーダルデータベースで検索し、第1集合を取得するステップであって、前記第1集合には、前記第1モーダルデータの内容情報にマッチングする少なくとも1つの第2モーダルデータが含まれる、ステップと、
前記第1モーダルデータのセマンティック情報に基づいて前記第2モーダルデータベースで検索し、第2集合を取得するステップであって、前記第2集合には、前記第1モーダルデータのセマンティック情報にマッチングする少なくとも1つの第2モーダルデータが含まれる、ステップと、
前記第1集合と前記第2集合とをマージし、前記第1モーダルデータに対応するクロスモーダル検索結果を取得するステップと、を含む、
ことを特徴とする方法。
【請求項2】
前記第2モーダルデータベースにはN個の第2モーダルデータ、及び前記N個の第2モーダルデータの各自の属性情報が記憶されており、Nは正の整数であり、前記第1モーダルデータの内容情報に基づいて第2モーダルデータベースで検索し、第1集合を取得する前記ステップは、
前記N個の第2モーダルデータのうちの各第2モーダルデータについて、前記第1モーダルデータの内容情報と前記第2モーダルデータの属性情報との間のマッチング度を、前記第2モーダルデータに対応するマッチング度として決定するステップと、
対応するマッチング度がマッチング条件を満たす第2モーダルデータを前記第1集合に追加するステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記属性情報は第1モーダル記述情報を含み、前記N個の第2モーダルデータのうちのいずれか1つは、第i個の第2モーダルデータとして示し、iは正の整数であり、かつiはN以下であり、
前記N個の第2モーダルデータのうちの各第2モーダルデータについて、前記第1モーダルデータの内容情報と前記第2モーダルデータの属性情報との間のマッチング度を、前記第2モーダルデータに対応するマッチング度として決定する前記ステップは、
前記第1モーダルデータの内容情報と前記第i個の第2モーダルデータの第1モーダル記述情報との間のセマンティック類似度を、前記第i個の第2モーダルデータに対応するマッチング度として決定するステップを含み、
対応するマッチング度がマッチング条件を満たす第2モーダルデータを前記第1集合に追加する前記ステップは、
前記第1モーダルデータの内容情報と前記第i個の第2モーダルデータの第1モーダル記述情報との間のセマンティック類似度が第1類似閾値よりも大きいと、前記第i個の第2モーダルデータを前記第1集合に追加するステップを含む、
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記属性情報はカテゴリラベルを含み、前記N個の第2モーダルデータのうちのいずれか1つは、第i個の第2モーダルデータとして示し、iは正の整数であり、かつiはN以下であり、
前記N個の第2モーダルデータのうちの各第2モーダルデータについて、前記第1モーダルデータの内容情報と前記第2モーダルデータの属性情報との間のマッチング度を、前記第2モーダルデータに対応するマッチング度として決定する前記ステップは、
前記第1モーダルデータの内容情報と前記第i個の第2モーダルデータのカテゴリラベルとの間の類似度を、前記第i個の第2モーダルデータに対応するマッチング度として決定するステップを含み、
対応するマッチング度がマッチング条件を満たす第2モーダルデータを前記第1集合に追加する前記ステップは、
前記第1モーダルデータの内容情報と前記第i個の第2モーダルデータのカテゴリラベルとの間の類似度が第2類似閾値よりも大きいと、前記第i個の第2モーダルデータを前記第1集合に追加するステップを含む、
ことを特徴とする請求項2に記載の方法。
【請求項5】
前記第2モーダルデータベースにはN個の第2モーダルデータが記憶されており、前記第2モーダルデータベースは、前記N個の第2モーダルデータの各自のセマンティック特徴が記憶されている第2モーダル特徴ライブラリと関連付けられており、
前記第1モーダルデータのセマンティック情報に基づいて前記第2モーダルデータベースで検索し、第2集合を取得する前記ステップは、
前記第1モーダルデータのセマンティック特徴を取得するステップと、
前記第1モーダルデータのセマンティック特徴に基づいて、前記第1モーダルデータのセマンティック特徴にマッチングするターゲットセマンティック特徴を前記第2モーダル特徴ライブラリで探すステップと、
前記ターゲットセマンティック特徴に応じて、前記第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを前記第2モーダルデータベースで決定するステップと、
前記第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを前記第2集合に追加するステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項6】
前記第2モーダル特徴ライブラリと前記第2モーダルデータベースとは、特徴インデックスによって関連付けられ、
前記ターゲットセマンティック特徴に応じて、前記第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを前記第2モーダルデータベースで決定する前記ステップは、
前記ターゲットセマンティック特徴の特徴インデックスを決定するステップと、
前記ターゲットセマンティック特徴の特徴インデックスに基づいて、前記ターゲットセマンティック特徴の特徴インデックスに対応する第2モーダルデータを前記第2モーダルデータベースで決定するステップと、を含む、
ことを特徴とする請求項5に記載の方法。
【請求項7】
前記第2モーダル特徴ライブラリに記憶された前記N個の第2モーダルデータの各自のセマンティック特徴は、クロスモーダル検索モデルにおける第2モーダル処理ネットワークを通じて前記N個の第2モーダルデータに対してそれぞれ特徴抽出処理を行って得られたものであり、前記クロスモーダル検索モデルはさらに、第1モーダル処理ネットワークを含み、
前記第1モーダルデータのセマンティック特徴を取得する前記ステップは、
前記クロスモーダル検索モデルにおける前記第1モーダル処理ネットワークを通じて、前記第1モーダルデータに対して特徴抽出処理を行い、前記第1モーダルデータのセマンティック特徴を取得するステップを含む、
ことを特徴とする請求項5に記載の方法。
【請求項8】
前記第2モーダル処理ネットワークは、特徴抽出ネットワーク、プーリング処理ネットワーク、及び特徴統合ネットワークを含み、前記N個の第2モーダルデータのうちのいずれか1つは、第i個の第2モーダルデータとして示し、iは正の整数であり、かつiはN以下であり、
前記クロスモーダル検索モデルにおける第2モーダル処理ネットワークを通じて前記N個の第2モーダルデータに対してそれぞれ特徴抽出処理を行い、前記N個の第2モーダルデータの各自のセマンティック特徴を取得するステップは、
前記第2モーダル処理ネットワークにおける前記特徴抽出ネットワークを通じて、前記第i個の第2モーダルデータの初期特徴を抽出するステップと、
前記第2モーダル処理ネットワークにおける前記プーリング処理ネットワークを通じて、前記初期特徴に対してプーリング処理を行い、前記第i個の第2モーダルデータのプーリング特徴を取得するステップと、
前記特徴統合ネットワークを通じて、前記プーリング特徴に対して統合処理を行い、前記第i個の第2モーダルデータのセマンティック特徴を取得するステップと、を含む、
ことを特徴とする請求項7に記載の方法。
【請求項9】
前記第2モーダル処理ネットワークはさらに、分類ネットワークを含み、前記方法はさらに、
前記分類ネットワークを通じて、前記プーリング特徴に基づいて分類予測処理を行い、前記第i個の第2モーダルデータのカテゴリラベルを取得するステップと、
前記第i個の第2モーダルデータのカテゴリラベルを前記第2モーダルデータベースに追加するステップと、を含む、
ことを特徴とする請求項8に記載の方法。
【請求項10】
前記方法はさらに、
クロスモーダルトレーニングデータセットを取得するステップであって、前記クロスモーダルトレーニングデータセットは、複数組のクロスモーダルサンプルデータを含み、各組の前記クロスモーダルサンプルデータは、第2モーダルサンプルデータ、第1モーダルサンプルデータ、及び前記第2モーダルサンプルデータと前記第1モーダルサンプルデータとの間のマッチング結果を含むステップと、
前記クロスモーダル検索モデルにおける第1モーダル処理ネットワークを通じて、前記クロスモーダルサンプルデータのうちの第1モーダルサンプルデータに対して特徴抽出処理を行い、前記第1モーダルサンプルデータのセマンティック特徴を取得し、前記クロスモーダル検索モデルにおける第2モーダル処理ネットワークを通じて、前記クロスモーダルサンプルデータのうちの第2モーダルサンプルデータに対して特徴抽出処理を行い、前記第2モーダルサンプルデータのセマンティック特徴を取得するステップと、
前記第1モーダルサンプルデータのセマンティック特徴と前記第2モーダルサンプルデータのセマンティック特徴との間のクロスモーダルコントラスト損失に応じて、前記クロスモーダル検索モデルに対して反復トレーニングを行い、トレーニングされたクロスモーダル検索モデルを取得するステップと、を含む、
ことを特徴とする請求項7に記載の方法。
【請求項11】
コンピュータデバイスによって実行されるクロスモーダル検索方法であって、
ソーシャルセッションのセッションインターフェースを表示するステップと、
前記ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示するステップであって、前記セッション記録詳細インターフェースには、前記ソーシャルセッションの履歴セッション記録における第2モーダルデータが含まれるステップと、
前記セッション記録詳細インターフェースに入力された第1モーダルデータに応答して、前記第1モーダルデータに対応するクロスモーダル検索結果を出力するステップであって、前記クロスモーダル検索結果は、請求項1~10のいずれか1項に記載のクロスモーダル検索方法を採用して得られたものであるステップと、を含む、
ことを特徴とする方法。
【請求項12】
前記ソーシャルセッションの履歴セッション記録における第2モーダルデータは、第2モーダルデータベースに記憶され、かつ前記第2モーダルデータベースには前記第2モーダルデータの属性情報が記憶されており、前記属性情報は、カテゴリラベルと、前記第2モーダルデータに関連付けられた第1モーダル記述情報と、前記第2モーダルデータから認識された第1モーダル記述情報と、の少なくとも1つを含む、
ことを特徴とする請求項11に記載の方法。
【請求項13】
前記第1モーダルデータはテキストであり、前記第2モーダルデータは画像であり、前記セッション記録詳細インターフェースには検索ボックスが含まれ、前記第1モーダルデータは、前記検索ボックスに入力して得られたものであり、又は、
前記セッション記録詳細インターフェースにはさらに、少なくとも1つの推薦テキストが含まれ、前記第1モーダルデータは、前記少なくとも1つの推薦テキストから選択することによって得られたものである、
ことを特徴とする請求項11に記載の方法。
【請求項14】
前記方法はさらに、
第1検索規則に対する選択に応答して、前記クロスモーダル検索結果のうち、前記第1モーダルデータの内容情報にマッチングする第2モーダルデータを出力するステップ、又は、
第2検索規則に対する選択に応答して、前記クロスモーダル検索結果のうち、前記第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを出力するステップを含む、
ことを特徴とする請求項11に記載の方法。
【請求項15】
クロスモーダル検索装置であって、
第1モーダルデータを取得するための取得モジュールと、
前記第1モーダルデータの内容情報に基づいて第2モーダルデータベースで検索し、第1集合を取得するための検索モジュールであって、前記第1集合には、前記第1モーダルデータの内容情報にマッチングする少なくとも1つの第2モーダルデータが含まれる検索モジュールと、を含み、
前記検索モジュールはさらに、前記第1モーダルデータのセマンティック情報に基づいて前記第2モーダルデータベースで検索し、第2集合を取得するために用いられ、前記第2集合には、前記第1モーダルデータのセマンティック情報にマッチングする少なくとも1つの第2モーダルデータが含まれ、
前記第1集合と前記第2集合とをマージし、前記第1モーダルデータに対応するクロスモーダル検索結果を取得するためのマージモジュールを含む、
ことを特徴とする装置。
【請求項16】
クロスモーダル検索装置であって、
ソーシャルセッションのセッションインターフェースを表示するための表示モジュールを含み、
前記表示モジュールはさらに、前記ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示するために用いられ、前記セッション記録詳細インターフェースには、前記ソーシャルセッションの履歴セッション記録における第2モーダルデータが含まれ、
前記セッション記録詳細インターフェースに入力された第1モーダルデータに応答して、前記第1モーダルデータに対応するクロスモーダル検索結果を出力するための出力モジュールであって、前記クロスモーダル検索結果は、請求項1~10のいずれか1項に記載のクロスモーダル検索方法を採用して得られたものである出力モジュールを含む、
ことを特徴とする装置。
【請求項17】
コンピュータデバイスであって、プロセッサと、メモリと、ネットワークインターフェースと、を含み、
前記プロセッサは前記メモリ、前記ネットワークインターフェースに接続され、前記ネットワークインターフェースはネットワーク通信機能を提供するために用いられ、前記メモリはプログラムコードを記憶するために用いられ、前記プロセッサは前記プログラムコードを呼び出して、請求項1~14のいずれか1項に記載のクロスモーダル検索方法を実行するために用いられる、
ことを特徴とするコンピュータデバイス。
【請求項18】
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムはプログラム命令を含み、前記プログラム命令はプロセッサによって実行される場合、請求項1~14のいずれか1項に記載のクロスモーダル検索方法を実行する、
ことを特徴とするコンピュータ可読記憶媒体。
【請求項19】
コンピュータプログラム製品であって、前記コンピュータプログラム製品は、コンピュータプログラム又はコンピュータ命令を含み、前記コンピュータプログラム又はコンピュータ命令はプロセッサによって実行される場合、請求項1~14のいずれか1項に記載のクロスモーダル検索方法のステップを実現する、
ことを特徴とするコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2022年03月07日に中国特許庁に提出された、出願番号が2022102220890であって、出願の名称が「クロスモーダル検索方法及び関連デバイス」である中国特許出願に基づく優先権を主張するものであり、その全内容を本願に参照により援用する。
【0002】
本願は、コンピュータという技術的分野に関し、特にクロスモーダル検索技術に関する。
【背景技術】
【0003】
インターネット技術の高速発展に伴い、コンピュータデバイスを介してデータを検索することは、生産生活及び仕事学習で人々にとって不可欠な機能となっている。実践により、現在の検索には一般的に、クロスモーダル検索をサポートしない、検索次元が単一である、検索効率が低い、検索結果が不完全である等の問題があることが発見された。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願の実施例は、クロスモーダル検索の効率、及びクロスモーダル検索結果の多様性、全面性をアップできるクロスモーダル検索方法及び関連デバイスを提供する。
【課題を解決するための手段】
【0005】
本願の実施例の一態様は、コンピュータデバイスによって実行されるクロスモーダル検索方法を提供し、
第1モーダルデータを取得するステップと、
第1モーダルデータの内容情報に基づいて第2モーダルデータベースで検索し、第1集合を取得するステップであって、第1集合には、第1モーダルデータの内容情報にマッチングする少なくとも1つの第2モーダルデータが含まれるステップと、
第1モーダルデータのセマンティック情報に基づいて第2モーダルデータベースで検索し、第2集合を取得するステップであって、第2集合には、第1モーダルデータのセマンティック情報にマッチングする少なくとも1つの第2モーダルデータが含まれるステップと、
第1集合と第2集合とをマージし、第1モーダルデータに対応するクロスモーダル検索結果を取得するステップと、を含む。
【0006】
本願の実施例の一態様は、コンピュータデバイスによって実行される別のクロスモーダル検索方法を提供し、
ソーシャルセッションのセッションインターフェースを表示するステップと、
前記ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示するステップであって、前記セッション記録詳細インターフェースには、前記ソーシャルセッションの履歴セッション記録における第2モーダルデータが含まれるステップと、
前記セッション記録詳細インターフェースに入力された第1モーダルデータに応答して、前記第1モーダルデータに対応するクロスモーダル検索結果を出力するステップであって、前記クロスモーダル検索結果は、本願の実施例のクロスモーダル検索方法を採用して得られたものであるステップと、を含む。
【0007】
本願の実施例の一態様は、クロスモーダル検索装置を提供し、
第1モーダルデータを取得するための取得モジュールと、
第1モーダルデータの内容情報に基づいて第2モーダルデータベースで検索し、第1集合を取得するための検索モジュールであって、第1集合には、第1モーダルデータの内容情報にマッチングする少なくとも1つの第2モーダルデータが含まれる検索モジュールと、を含み、
検索モジュールはさらに、第1モーダルデータのセマンティック情報に基づいて第2モーダルデータベースで検索し、第2集合を取得するために用いられ、第2集合には、第1モーダルデータのセマンティック情報にマッチングする少なくとも1つの第2モーダルデータが含まれ、
第1集合と第2集合とをマージし、第1モーダルデータに対応するクロスモーダル検索結果を取得するためのマージモジュールを含む。
【0008】
本願の実施例の一態様は、別のクロスモーダル検索装置を提供し、
ソーシャルセッションのセッションインターフェースを表示するための表示モジュールを含み、
表示モジュールはさらに、ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示するために用いられ、セッション記録詳細インターフェースには、ソーシャルセッションの履歴セッション記録における第2モーダルデータが含まれ、
セッション記録詳細インターフェースに入力された第1モーダルデータに応答して、第1モーダルデータに対応するクロスモーダル検索結果を出力するための出力モジュールであって、クロスモーダル検索結果は、本願の実施例のクロスモーダル検索方法を採用して得られたものである出力モジュールを含む。
【0009】
本願の実施例の一態様は、コンピュータデバイスを提供し、プロセッサと、メモリと、ネットワークインターフェースと、を含み、プロセッサはメモリ、ネットワークインターフェースに接続され、ネットワークインターフェースはネットワーク通信機能を提供するために用いられ、メモリはプログラムコードを記憶するために用いられ、プロセッサはプログラムコードを呼び出すために用いられ、これにより、本願の実施例におけるクロスモーダル検索方法を実行する。
【0010】
本願の実施例の一態様は、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体にはコンピュータプログラムが記憶されており、コンピュータプログラムはプログラム命令を含み、プログラム命令はプロセッサによって実行される場合、本願の実施例におけるクロスモーダル検索方法を実行する。
【0011】
本願の実施例の一態様は、コンピュータプログラム製品を提供し、当該コンピュータプログラム製品は、コンピュータプログラム又はコンピュータ命令を含み、前記コンピュータプログラム又はコンピュータ命令はプロセッサによって実行される場合、本願の実施例における一態様が提供するクロスモーダル検索方法を実現する。
【0012】
本願の実施例では、第1モーダルデータの内容情報に基づいて、当該第1モーダルの内容情報にマッチングする第2モーダルデータを検索することができ、第1モーダルデータのセマンティック情報に基づいて、当該第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを検索することができ、このように、本願の実施例は、クロスモーダル検索をサポートするだけでなく、それぞれに内容、セマンティックとの2つの次元から総合的に検索することもサポートし、これにより、検索がカバーする次元は単一でなくなり、また、2つの次元で検索された第2モーダルデータをクロスモーダル検索結果としてマージし、1回の検索過程により、複数の次元の検索結果を得ることができ、クロスモーダル検索の検索効率をアップし、また、クロスモーダル検索結果が2つの次元の検索結果をマージすることで得られたため、クロスモーダル検索結果はより多様化し、より全面的である。
【図面の簡単な説明】
【0013】
【
図1】本願の実施例が提供するクロスモーダル検索システムのアーキテクチャ図である。
【
図2】本願の実施例が提供するクロスモーダル検索方法の第1の概略フローチャートである。
【
図3】本願の実施例が提供するクロスモーダル検索方法の第2の概略フローチャートである。
【
図4a】本願の実施例が提供するクロスモーダル検索モデルにおける第1モーダル処理ネットワークの構造概略図である。
【
図4b】本願の実施例が提供するクロスモーダル検索モデルにおける第2モーダル処理ネットワークの構造概略図である。
【
図5】本願の実施例が提供するクロスモーダル検索モデルのトレーニング概略図である。
【
図6】本願の実施例が提供するクロスモーダル検索のアルゴリズム概略フローチャートである。
【
図7】本願の実施例が提供するクロスモーダル検索方法の第3の概略フローチャートである。
【
図8a】本願の実施例が提供する、履歴セッション記録に対するチェックの操作概略図である。
【
図8b】本願の実施例が提供するクロスモーダル検索の操作概略図である。
【
図8c】本願の実施例が提供する、クロスモーダル検索結果を出力する効果概略図である。
【
図9】本願の実施例が提供するクロスモーダル検索装置の構造概略図である。
【
図10】本願の実施例が提供する別のクロスモーダル検索装置の構造概略図である。
【
図11】本願の実施例が提供するコンピュータデバイスの構造概略図である。
【発明を実施するための形態】
【0014】
以下、本願の実施例における図面を結合して本願の実施例における技術的手段を明瞭で完全に記述し、明らかに、記述する実施例は、すべての実施例ではなく、本願の実施例の一部に過ぎない。本願における実施例に基づいて、当業者が創造的な労働を費やすことがなくて得られるすべての他の実施例は、いずれも本願の保護範囲内に入るものとする。
【0015】
本願の実施例の手段をよりよく理解するために、以下、まず、本願の実施例に関する可能性のある関連用語及び概念を紹介する。
【0016】
チャットフォトウォール:アプリケーションプログラム(Application、APP)における各チャット内で送受信される写真の全展示ページである。
【0017】
マルチモーダル学習:2種の異なるモーダルのデータを同じ特徴空間(例えば、セマンティック空間)にマッピングすることで、2種の異なるモーダルのデータがセマンティックに応じて関連付けられることを指し、類似するセマンティックを有するモーダルデータは、当該特徴空間で類似する特徴を備え、上記2種の異なるモーダルのデータは例えば、画像、テキストであってもよい。
【0018】
上記用語及び概念に基づいて、以下、図面を結合して本願の実施例が提供するクロスモーダル検索システムのアーキテクチャを紹介する。
【0019】
図1を参照すると、
図1は本願の実施例が提供するクロスモーダル検索システムのアーキテクチャ概略図である。
図1に示すように、当該アーキテクチャ図は、データベース101及びクロスモーダル検索デバイス102を含む。クロスモーダル検索デバイス102は、データベース101と有線又は無線の方式を通じて通信接続を確立することができ、データベース101は、クロスモーダル検索デバイス102のローカルデータベースであってもよいし、クロスモーダル検索デバイス102がアクセス可能なクラウドデータベースであってもよい。クロスモーダル検索デバイス102は具体的に、サーバ又は端末等のコンピュータデバイスであってもよい。
【0020】
本願の実施例では、サーバは、独立した物理サーバであってもよく、複数の物理サーバで構成されるサーバクラスタ又は分散型システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインネームサービス、セキュリティサービス、CDN、及びビッグデータと人工知能プラットフォーム等の基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよく、ここでは制限しない。端末は、スマートフォン、タブレットコンピュータ、スマートウェアラブルデバイス、スマート音声インタラクティブデバイス、スマート家電、パソコン、車載端末等のデバイスであってもよく、ここでは制限しない。
【0021】
データベース101は、第2モーダルデータベース、及び当該第2モーダルデータベースに関連付けられた第2モーダル特徴ライブラリを含むことができ、第2モーダルデータベースは、第2モーダルデータ及び第2モーダルデータの属性情報を記憶するために用いられる。ここで、1つの実施形態では、第2モーダルデータの属性情報は、第2モーダルデータ自体に含まれる情報であってもよく、例えば、第2モーダルデータは画像であり、属性情報は画像中の文字であってもよい。別の実施形態では、第2モーダルデータの属性情報はさらに、第2モーダルデータに関連付けられた情報であってもよく、例えば、第2モーダルデータは画像であり、属性情報は、画像にアノテーションしたカテゴリラベルであってもよい。第2モーダル特徴ライブラリは、第2モーダルデータのセマンティック特徴を記憶するために用いられ、それに、各第2モーダルデータのセマンティック特徴にはいずれも、特徴インデックスが設けられており、当該特徴インデックスは、快速に第2モーダルデータベースから第2モーダルデータを検索するようにアシストすることができる。
【0022】
クロスモーダル検索デバイス102は、第1モーダルデータに応じて第2モーダルデータを検索し、さらに、クロスモーダル検索結果を生成し、具体的な過程は以下のとおりである。(1)第1モーダルデータを取得する。当該第1モーダルデータは、テキスト、音声、画像等のうちのいずれか1種であってもよい。(2)第1モーダルデータの内容情報及びセマンティック情報に基づいて、それぞれデータベース101(具体的には、第2モーダルデータベース)から内容情報にマッチングする第2モーダルデータ、及びセマンティック情報にマッチングする第2モーダルデータを検索する。ここで、内容情報とは、第1モーダルデータの自体に含まれる内容を指し、セマンティック情報とは、第1モーダルデータが表現する抽象的な意味を指す。例を挙げると、第1モーダルデータはテキストであり、内容情報は当該テキスト中のキャラクタであり、セマンティック情報は当該テキストの表現する意味である。第1モーダルデータが画像であると、内容情報は、画像に含まれる内容、例えば、文字であってもよく、セマンティック情報は、当該画像から抽出されたセマンティック特徴であってもよい。1つの実施例では、第1モーダルデータの内容情報に基づいて、直接に第2モーダルデータベースから当該内容情報にマッチングする第2モーダルデータを探すことができるが、第1モーダルデータのセマンティック情報に基くためには、第2モーダル特徴ライブラリを介する必要があり、第2モーダル特徴ライブラリで第1モーダルデータのセマンティック情報にマッチングする第2モーダル特徴を探し、さらに第2モーダル特徴に応じて、第2モーダルデータベースで対応する第2モーダルデータを決定し、当該セマンティック情報にマッチングする第2モーダルデータである。(3)これらの第2モーダルデータを、第1モーダルデータにマッチングするクロスモーダル検索結果としてマージする。
【0023】
クロスモーダル検索デバイス102はさらに、入力された第1モーダルデータに応じて、当該第1モーダルデータに対応するクロスモーダル検索結果を出力してもよい。具体的な過程は以下のステップを含む。(1)ソーシャルセッションのセッションインターフェースを表示するステップと、(2)ソーシャルセッションの履歴セッション記録に対するチェック操作に応答して、セッション記録詳細インターフェースを表示するステップであって、セッション記録詳細インターフェースには第2モーダルデータが表示されており、また第2モーダルデータはソーシャルセッションの履歴セッション記録に属するステップと、(3)セッション記録詳細インターフェースに入力された第1モーダルデータに応答して、第1モーダルデータに対応するクロスモーダル検索結果を出力するステップと、である。選択可能に、セッション記録詳細インターフェースは、セッションオブジェクトが手動で第1モーダルデータを入力するための検索ボックスを提供してもよいし、セッションオブジェクトが選択するための第1モーダルデータを推薦して、検索機能を迅速にトリガしてクロスモーダル検索を行うようにしてもよい。1つの実施例では、指定された検索規則に応じてクロスモーダル検索を行うようにしてもよく、例えば、入力されたテキストは、画像の記述に応じて検索されてもよいし、画像中の文字に応じて検索されてもよい。このように、展示されたクロスモーダル検索結果は検索次元に関連付けることができ、例えば、クロスモーダル検索結果における、第1モーダルデータの内容情報にマッチングする第2モーダルデータを出力し、又は、クロスモーダル検索結果における、第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを出力することができる。
【0024】
上記により分かるように、クロスモーダル検索システムは、以下のような2種のクロスモーダル検索手段をサポートし、1つは、技術面の汎用クロスモーダル検索であり、もう1つは、製品面の履歴セッション記録におけるクロスモーダル検索であり、後者は、クロスモーダル検索結果を出力し、かつクロスモーダル検索結果は、技術面のクロスモーダル検索手段を実施することで得られる。この2種の手段を支持するクロスモーダル検索デバイスは具体的に、同じコンピュータデバイスであってもよいし、異なるコンピュータデバイスであってもよく、この2種の手段を支持するクロスモーダル検索デバイスが異なるコンピュータデバイスである場合、仮にコンピュータデバイスA、コンピュータデバイスBであれば、コンピュータデバイスBにより、入力された第1モーダルデータを受信するとともに、当該第1モーダルデータをコンピュータデバイスAに送信し、コンピュータデバイスAは、取得された第1モーダルデータに基づいてデータベースから検索し、クロスモーダル検索結果を取得して、さらに当該クロスモーダル検索結果をコンピュータデバイスBに送信し、かつコンピュータデバイスBで当該クロスモーダル検索結果を出力する。この2種の手段を支持するクロスモーダル検索デバイスが同一コンピュータデバイスである場合、仮にコンピュータデバイスAであれば、コンピュータデバイスAにより、入力された第1モーダルデータを自動的に認識し、当該第1モーダルデータに基づいてデータベースからマッチングする第2モーダルデータ検索し、クロスモーダル探索結果を取得してコンピュータデバイスAで出力することができる。
【0025】
このように、本願の実施例が提供するクロスモーダル検索システムは、それぞれ第1モーダルデータの内容情報及び第1モーダルデータのセマンティック情報に基づいて、第2モーダルデータベースで第1モーダルデータにマッチングする第2モーダルデータを検索するようにサポートでき、これはクロスモーダル検索方式であり、それに、それぞれ内容、セマンティックとの2つの次元から総合的に検索することにより、検索がカバーする次元は単一でなくなり、第1モーダルデータに関連付けられるすべての第2モーダルデータをカバーし検索することができ、検索結果をより速く、より正確に得ることができる。なお、2つの次元で検索された第2モーダルデータをクロスモーダル検索結果としてマージすることにより、1回の検索過程で複数の次元の検索結果が得られ、クロスモーダル検索の効率が著しくアップするとともに、十分に豊富で全面的な検索結果を得ることができる。なお、クロスモーダル検索システムはさらに、ソーシャルセッションの履歴セッション記録に基づく検索機能を提供することができ、当該検索機能は、履歴セッション記録における第2モーダルデータを検索し、それに、全部のクロスモーダル検索結果を展示でき、又は、指定された次元に応じて検索することで、指定された次元のクロスモーダル検索結果を展示することができ、上記クロスモーダル検索手段の技術的サポートにより、検索機能を用いて履歴セッション記録における第2モーダルデータを検索する場合、第1モーダルデータの入力の自由度、複雑度が効果的にアップする。
【0026】
本願の実施例が提供するクロスモーダル検索方法をよりよく理解するために、以下、当該クロスモーダル検索方法の適用可能なシーンを説明する。具体的に言えば、本願の実施例のクロスモーダル検索方法は、以下に示すようなシーン1、シーン2に適用できるが、これらの適用シーンに限られない。以下、シーン1、シーン2をそれぞれに紹介する。
【0027】
シーン1:第1モーダルデータはテキストデータであり、第2モーダルデータは画像データであり、画像データ、テキストデータについて検索しマッチングする。ソーシャルセッションの履歴セッション記録には、多くの形式のセッションメッセージ、例えば、写真、動画、ファイル、リンク、音楽等が存在し、履歴セッション記録の検索は、履歴セッション記録に含まれる履歴セッションメッセージにより迅速に到達する方式である。写真又は動画形式の履歴セッション記録について検索する場合、手動で入力されたテキスト、又は選ばれた推薦テキストを検索テキストとし、そして、それにマッチングする、写真又は動画を含む画像データを出力することができる。なお、スマート端末のシステムアルバムにおける写真又は動画について検索する場合、本願の実施例のクロスモーダル検索方法を採用することもでき、同様に、テキストをクエリの入力とし、アルバムにおける画像特徴、及び画像に含まれるテキスト情報又は関連付けられたテキスト記述情報をマッチングすることにより、対応する画像データを出力することができる。
【0028】
シーン2:第1モーダルデータはオーディオデータであり、第2モーダルデータは画像データであり、画像データ、音声データについて検索しマッチングする。スマートフォンを例として、現在、多くのスマートフォンはいずれも、スマート音声の機能が搭載されており、スマート音声により、端末デバイスを制御して相応する操作を自動的に実行させることができる。スマートフォンにおける大量の写真又は動画に直面する場合、音声によりクロスモーダル検索に関する問題をクエリし、即ち、音声を認識し理解し、音声及び画像を同じ特徴比較空間にマッピングすることにより、それに対応する写真をマッチングし、さらに、音声をテキストに変換し、テキストを画像のカテゴリラベル、テキスト記述情報等と比較することにより、対応する写真又は動画をマッチングすることができる。本願の実施例のクロスモーダル検索方法により、音声をクエリの入力とし、携帯電話のアルバムにおける画像内容をマッチングすることにより、音声にマッチングする画像を自動的に出力することができる。
【0029】
以下、図面を結合して、本願の実施例が提出するクロスモーダル検索方法の具体的な実現方式を詳しく論述する。
【0030】
図2を参照すると、本願の実施例が提供するクロスモーダル検索方法の概略フローチャート一であり、当該クロスモーダル検索方法は、コンピュータデバイス(例えば、
図1に示すクロスモーダル検索デバイス102)によって実行されてもよい。なお、当該クロスモーダル検索方法は、ステップS201~S204を含むが、これらに限られない。
【0031】
S201、第1モーダルデータを取得する。
モダリティとは、情報のソース又は形式を指すことができる。例を挙げると、人間には聴覚、視覚、嗅覚、触覚があり、情報の媒体には音声、動画、文字、写真等があり、以上のそれぞれはいずれも、モダリティと見なすことができる。本願の実施例では、クロスモーダル検索は主に、情報媒体に対する処理に関し、モーダルデータは具体的に、画像、動画、オーディオ等の異なる形式のデータであってもよい。取得された第1モーダルデータは、ユーザがコンピュータデバイスを介して入力したモーダルデータであってもよく、選択可能に、第1モーダルデータは、例えば、物理キーボード、仮想キーボード、カーソル選択等のアシスト方式で入力されたテキストデータ又は画像データであってもよく、又は、スマート音声デバイスを介して認識したオーディオデータであってもよく、又は、推薦された第1モーダルデータ(例えば、推薦テキスト)から選択されたものであってもよい。
【0032】
S202、第1モーダルデータの内容情報に基づいて第2モーダルデータベースで検索し、第1集合を取得する。
【0033】
第1集合には、第1モーダルデータの内容情報にマッチングする少なくとも1つの第2モーダルデータが含まれる。第1モーダルデータの内容情報は、第1モーダルデータに含まれる本質的な内容を記述するためのデータ情報である。例えば、第1モーダルデータはテキストであり、対応する内容情報は、テキストキャラクタ自体、又はテキストに基づいて抽出されたキーワードであってもよく、または、例えば、第1モーダルデータは画像であり、対応する内容情報は、画像に含まれる他のモーダル情報又は基本的な特徴であってもよく、例えば、画像に含まれる幾何学的形状、テクスチャ、色、オブジェクトカテゴリラベル、テキスト記述情報のうちのいずれか1種又は多種等である。第1モーダルデータの内容情報という次元に基づいて、第2モーダルデータベースで第1モーダルデータの内容情報にマッチングするすべての第2モーダルデータを検索するとともに、マッチングする第2モーダルデータを第1集合に追加することができる。
【0034】
1つの実施例では、第2モーダルデータベースにはN個の第2モーダルデータ、及びN個の第2モーダルデータの各自の属性情報が記憶されており、Nは正の整数である。第2モーダルデータ、第1モーダルデータは、2種の異なるモーダルのデータであり、第2モーダルデータは、テキスト、画像、オーディオ、動画等のモーダルデータのうちのいずれか1種であってもよく、第2モーダルデータベースに記憶された第2モーダルデータは、異なる業務シーンで異なる。例えば、ソーシャルセッションの履歴セッション記録の検索では、第2モーダルデータは、セッションで送受信された画像であってもよい。第2モーダルデータの属性情報は、第2モーダルデータの属性を記述する情報であり、第2モーダルデータから認識された、又は他のデータから生成された、関連情報であってもよく、当該属性情報と第1モーダルデータの内容情報は、同じ記録形式のデータであってもよく、例えば、いずれもテキスト記述情報である。第1モーダルデータの内容情報は、第2モーダルデータの属性情報にマッチングすることができ、これにより、マッチングする第2モーダルデータを第2モーダルデータベースで検索し、第1集合を取得する。
【0035】
選択可能に、ステップS202の具体的な実現方式は、以下のステップS2021、S2022を含み、S2021、N個の第2モーダルデータのうちの各第2モーダルデータについて、第1モーダルデータの内容情報と当該第2モーダルデータの属性情報との間のマッチング度を、当該第2モーダルデータに対応するマッチング度として決定し、S2022、対応するマッチング度がマッチング条件を満たす第2モーダルデータを第1集合に追加する。
【0036】
第1モーダルデータの内容情報をそれぞれに、第2モーダルデータベースのN個の第2モーダルデータのうちの各第2モーダルデータの属性情報にマッチングし、対応するマッチング度を得ることができる。ここでのマッチング度は、第1モーダルデータの内容情報と第2モーダルデータの属性情報との間が類似しているか否か、又は一致しているか否かを示すことができる。第1モーダルデータの内容情報と第2モーダルデータの属性情報との間のマッチング度については、モーダルデータの類似度(例えば、テキスト類似度)、又は抽象的なセマンティック類似度により測定してもよいし、他の方式を採用してもよく、ここでは制限しない。マッチング度がマッチング条件を満たすか否かを判断することにより、第2モーダルデータベースから、第1モーダルデータの内容情報にマッチングする第2モーダルデータを検索することができる。ここでのマッチング条件については、マッチング度がマッチング度閾値以上であるように設定してもよいし、マッチング度が上位y位にあり、yが正の整数であるように設定してもよい。マッチング条件の具体的な設定内容を制限しない。
【0037】
選択可能に、属性情報は、第1モーダル記述情報、カテゴリラベルのうちの1種又は2種を含み、第1モーダル記述情報とは、第1モーダルの形式で記録された記述情報を指し、例えば、第1モーダルデータはテキストであり、それでは、第1モーダル記述情報はテキスト記述情報であり、さらに例えば、第1モーダルデータは画像であり、それでは、第1モーダル記述情報は画像記述情報である。第1モーダル記述情報は第2モーダルデータの属性情報として、第1モーダルデータの内容情報にマッチングすることができ、第1モーダルデータの内容情報、第2モーダルの属性情報がともに、同じモーダルの形式で記録される場合、同じモーダル情報のマッチングであり、このように、第1モーダルデータの内容情報と第2モーダルデータの第1モーダル記述情報との比較により、第1モーダルデータの内容情報にマッチングする第2モーダルデータをより便宜に選別することができる。カテゴリラベルは、第2モーダルデータに対してカテゴリを分割するためにアノテーションされた情報であり、手動で第2モーダルデータにアノテーションされたものであってもよいし、第2モーダルデータを分類モデルに入力してマルチラベル分類を行って得られたものであってもよい。第2モーダルデータのカテゴリラベルと第1モーダルデータの内容情報とをマッチングすることで、マッチング条件を満たす第2モーダルデータを検索するようにしてもよい。
【0038】
属性情報により、ステップS2021、S2022の詳しい実現ステップも異なる。具体的には、下記の2種の実施形態を参照可能である。記述を便利にさせるために、N個の第2モーダルデータのうちのいずれか1つを、第i個の第2モーダルデータとして示し、iは正の整数であり、かつiはN以下である。
【0039】
1つの実施形態では、属性情報は第1モーダル記述情報を含み、ステップS2021、S2022のそれぞれに対応する実現方式は、第1モーダルデータの内容情報と第i個の第2モーダルデータの第1モーダル記述情報との間のセマンティック類似度を、当該第i個の第2モーダルデータに対応するマッチング度として決定するステップ、第1モーダルデータの内容情報と第i個の第2モーダルデータの第1モーダル記述情報との間のセマンティック類似度が第1類似閾値よりも大きいと、第i個の第2モーダルデータを第1集合に追加するステップであってもよい。
【0040】
具体的には、第1モーダルデータの内容情報と第2モーダルデータの属性情報との間のマッチング度は、上記言及されたセマンティック類似度を採用することができ、セマンティック類似度の取得方式について、第1モーダルデータの内容情報に対応するセマンティック特徴、及び第i個の第2モーダルデータの第1モーダル記述情報に対応するセマンティック特徴を抽出し、そして、第1モーダルデータの内容情報、第i個の第2モーダルデータの第1モーダル記述情報の各自に対応するセマンティック特徴の間の類似度を決定し、それをセマンティック類似度とする方式であってもよい。その後、セマンティック類似度が第1類似閾値よりも大きいか否かを判断することにより、第i個の第2モーダルデータがマッチング条件を満たすか否かを決定することができ、当該セマンティック類似度が第1類似閾値よりも大きいと、第i個の第2モーダルデータの属性情報と第1モーダルデータの内容情報との間のマッチング度がマッチング条件を満たすことを示し、さらに第i個の第2モーダルデータの属性情報が第1モーダルデータの内容情報にマッチングすることを表明する場合、第i個の第2モーダルデータを第1集合に追加することができ、さもなければ、第i個の第2モーダルデータが第1集合に追加されない。
【0041】
第1モーダルデータの内容情報と第2モーダルデータの第1モーダル記述情報との間のセマンティック類似度を算出することにより、第1モーダルデータの内容情報と、第2モーダルデータの第1モーダル記述情報が表現するセマンティックとの一致性を知り、さらに第2モーダルデータと第1モーダルデータとがマッチングするか否かを決定することができる。
【0042】
例示的には、第1モーダルデータはテキストデータであり、第2モーダルデータは画像データであり、第1モーダルデータの具体的な内容は「青い空と白い雲」であり、内容情報は当該テキスト内容であり、第2モーダルデータの第1モーダル記述情報は、画像内容に対するテキスト記述情報であり、当該テキスト記述情報は画像に関連付けられ、画像に含まれる文字情報であってもよいし、画像に関連付けられたテキスト記述情報であってもよい。画像に関連付けられたテキスト記述内容が「今日は空がとてもきれいですね」である場合、そのうちのキーワードである「空」を第1モーダル記述情報とすることができ、そして、「空」、「青い空と白い雲」との2つのテキストの各自に対応するセマンティック類似度を決定し、両者がマッチングするか否かを決定し、これにより、対応する画像が、テキストにマッチングする画像であるか否かを決定する。
【0043】
別の実施形態では、属性情報はカテゴリラベルを含み、ステップS2021、S2022のそれぞれに対応する実現方式は、第1モーダルデータの内容情報と第i個の第2モーダルデータのカテゴリラベルとの間の類似度を、当該第i個の第2モーダルデータに対応するマッチング度として決定するステップ、第1モーダルデータの内容情報と第i個の第2モーダルデータのカテゴリラベルとの間の類似度が第2類似閾値よりも大きいと、第i個の第2モーダルデータを第1集合に追加するステップであってもよい。
【0044】
属性情報にカテゴリラベルが含まれる場合、上記マッチング度は具体的に、第1モーダルデータの内容情報と第i個の第2モーダルデータのカテゴリラベルとの間の類似度を指し、例えば、テキスト類似度であってもよく、類似度は、第2モーダルデータのカテゴリラベルと第1モーダルデータの内容情報との一致程度を代表することができ、第1モーダルデータの内容情報が第i個の第2モーダルデータのカテゴリラベルと完全に同等である場合、第i個の第2モーダルデータは、マッチング条件を満たす第2モーダルデータであり、又は、第1モーダルデータの内容情報がカテゴリラベルと十分に類似し、同じ理由により、第i個の第2モーダルデータを、マッチング条件を満たす第2モーダルデータとして決定してもよい。第i個の第2モーダルデータがマッチング条件を満たすか否かについて、具体的には、第1モーダルデータの内容情報と第i個の第2モーダルデータのカテゴリラベルとの間の類似度が第2類似度閾値よりも大きいか否かにより決定することができ、類似度が第2類似度閾値よりも大きいと、第1モーダルデータの内容情報と第i個の第2モーダルデータのカテゴリラベルとの間のマッチング度がマッチング条件を満たすことを表明し、さらに第i個の第2モーダルデータのカテゴリ情報と第1モーダルデータの内容情報とがマッチングすることを表明し、第i個の第2モーダルデータが第1集合に追加され、さもなければ、第i個の第2モーダルデータが第1集合に追加されない。
【0045】
例示的には、第1モーダルデータは検索テキストであり、第2モーダルデータは画像であり、第i個の第2モーダルデータはターゲット画像であり、かつ分類モデルによって「人物」、「風景」との2つのカテゴリラベルに分けられ、それでは、検索テキストの入力が「人物」又は「風景」である場合、カテゴリラベルと検索テキストとが完全に同等であるため、当該写真がマッチングされ、ここで使用される類似度は具体的に、テキスト類似度であってもよい。
【0046】
なお、カテゴリラベルのみを使用して文字ベースの画像検索を実現し、かつ検索語がカテゴリラベルと完全に同等である場合のみ関連写真にマッチングできれば、検索語に対する要求が高く、サポートされる検索語が限られかつ次元が単一であるため、検索しても結果が見つからない状況が容易に現れる可能性がある。他の次元の情報を総合して検索し、具体的にはセマンティック、内容との2つの次元から検索し、同時にマッチング条件を低減し、例えば、当該カテゴリラベルを含むこともマッチングと見なすことができ、検索効率をアップすることができるだけでなく、検索結果が空きである確率を低減することもできる。
【0047】
なお、上記2種の実施形態は、N個の第2モーダルデータのうちのいずれか1つの第2モーダルデータについても適用され、このように、第2モーダルデータベースに記憶されたN個の第2モーダルデータがいずれも第1モーダルデータの内容情報と上記方式に応じてマッチングした後、最終的に得られる第1集合は、下記のクロスモーダル検索結果の一部とすることができる。
【0048】
S203、第1モーダルデータのセマンティック情報に基づいて第2モーダルデータベースで検索し、第2集合を取得する。
【0049】
第2集合には、第1モーダルデータのセマンティック情報にマッチングする少なくとも1つの第2モーダルデータが含まれる。第1モーダルデータのセマンティック情報を別の情報表現形式とすることは、具体的に、第1モーダルデータに対応する現実世界の事物が代表する意味を指してもよい。セマンティック情報は、第1モーダルデータに対する浅層又は深層のセマンティック理解を特徴づけるために用いられてもよく、セマンティック情報は非常に豊富なものであってもよく、例えば、第1モーダルデータがテキストである場合、同じセマンティックは、多くの異なるテキスト表現があってもよく、非常に柔軟である。
【0050】
第1モーダルデータのセマンティック情報という次元により第2モーダルデータベースで検索することは、具体的に、第2モーダルデータのセマンティック情報と第1モーダルデータのセマンティック情報とをマッチングすることができ、さらに、第1モーダルデータのセマンティック情報にマッチングするすべての第2モーダルデータを第2モーダルデータベースから検索し、第2集合を取得する。なおセマンティック情報は、セマンティック特徴で示してもよく、具体的にはセマンティック特徴ベクトルであってもよい。マルチモーダル学習を基礎とし、第1モーダルデータのセマンティック特徴、第2モーダルデータのセマンティック特徴をそれぞれ抽出することにより、2つの異なるモーダルデータのセマンティック特徴を同じセマンティック特徴空間にマッピングして類似度の比較を行うことができ、さらに、類似するセマンティック特徴に基づいて、類似するセマンティックを有する第2モーダルデータが検索される。このステップの具体的な実現方式について、下記の
図3に対応する実施例の紹介を参照可能であり、ここでは詳しく説明しない。
【0051】
第1モーダルデータがテキスト、第2モーダルデータが画像である条件では、このステップは、クロスモーダル特徴に基づく文字ベースの画像検索方式であり、即ち、検索語のテキスト特徴ベクトル、写真の画像特徴ベクトルをそれぞれ抽出することにより、2種の異なるモーダルの特徴ベクトルを同じセマンティック特徴空間で類似度を比較し、これにより、テキスト記述により、類似するセマンティックを有する画像を直接にクロスモーダルで探索し、このように、より多く、より複雑なテキスト記述をサポートし、画像を記述する、自由で多様なテキストを入力してターゲット写真を検索することを実現することができる。
【0052】
S204、第1集合と第2集合とをマージし、第1モーダルデータに対応するクロスモーダル検索結果を取得する。
【0053】
上記ステップに応じて第2モーダルデータベースに記憶されたN個の第2モーダルデータを検索することにより、第1モーダルデータの内容にマッチングする第1集合、及び第1モーダルデータのセマンティックにマッチングする第2集合を取得することができる。第1集合と第2集合とをマージすることにより、第1モーダルデータの内容情報にマッチングする第2モーダルデータ、及び第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを含む、第1モーダルデータにマッチングするすべての第2モーダルデータを取得することができ、即ち、第1モーダルデータに対応するクロスモーダル検索結果であり、これによって得られるクロスモーダル検索結果は、複数の次元の検索結果を含み、多様で、全面的な検索結果である。
【0054】
本願の実施例が提供するクロスモーダル検索手段について、第1モーダルデータの内容情報に基づいて、第1モーダルデータの内容情報にマッチングする第2モーダルデータを第2モーダルデータベースで検索することができ、第1モーダルデータのセマンティック情報に基づいて、第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを第2モーダルデータベースで検索することができ、このような検索方式はある次元に限らず、複数の次元から総合的に検索する方式であり、これにより、検索がカバーする次元は単一でなくなり、それに、1回の検索で複数の次元の検索結果を取得でき、このように、クロスモーダル検索の効率を向上させ、また、第1モーダルデータの2つの次元にそれぞれにマッチングする第2モーダルデータを、クロスモーダル検索結果としてマージすることにより、より豊富で多様なクロスモーダル検索結果を取得することができ、第1モーダルデータの内容情報に基づいて検索することは、具体的に、第1モーダルデータの内容情報と第2モーダルデータの属性情報(第1モーダル記述情報又はカテゴリラベルであってもよい)との間のマッチング度を根拠とし、属性情報は、第2モーダルデータに含まれる内容に対する記述が多いため、それに応じて、第1モーダルデータも、固定の表現に限らず、より多様で複雑な表現をサポートするようにしてもよい。
【0055】
図3を参照すると、本願の実施例が提供するクロスモーダル検索方法の第2の概略フローチャートであり、当該方法は、コンピュータデバイス(例えば、
図1に示すクロスモーダル検索デバイス102)によって実行されてもよい。本実施例のクロスモーダル検索方法は、第1モーダルデータのセマンティック情報に基づいて第2モーダルデータベースで検索し、第2集合を取得するという
図2に対応するステップS203の対応する実現方式への詳しい紹介である。
【0056】
第2モーダルデータベースにはN個の第2モーダルデータが記憶されている。第2モーダルデータには第2モーダル特徴ライブラリが関連付けられており、当該第2モーダル特徴ライブラリには、N個の第2モーダルデータの各自のセマンティック特徴が記憶されている。第1モーダルデータのセマンティック情報に基づいて第2モーダルデータベースで検索し、第2集合を取得するステップの具体的な実現方式は、以下のステップS301~S304を含む。
【0057】
S301、第1モーダルデータのセマンティック特徴を取得する。
1つの実施例では、第1モーダルデータのセマンティック特徴は、クロスモーダル検索モデルの処理によって取得でき、具体的には、クロスモーダル検索モデルは第1モーダル処理ネットワークを含み、このステップの具体的な実現方式は、クロスモーダル検索モデルにおける第1モーダル処理ネットワークを通じて、第1モーダルデータに対して特徴抽出処理を行い、第1モーダルデータのセマンティック特徴を取得する方式であってもよい。第1モーダル処理ネットワークは、第1モーダルデータに対する処理ネットワークであり、例示的には、第1モーダルデータがテキストである場合、第1モーダル処理ネットワークはテキスト処理ネットワークであってもよく、当該テキスト処理ネットワークは、BERT(Bidirectional Encoder Representation from Transformers、事前にトレーニングされた言語的特徴モデル)モデル、又はBERTに関する各種の変異型モデルであってもよいし、他の自然言語処理(Natural Language Processing、NLP)モデルであってもよい。
図4aに示すように、テキストエンコーダ処理の概略図であり、テキストを入力とし、テキストエンコーダ(Text encoder)は、テキスト特徴ベクトルを出力することができる。
【0058】
S302、第1モーダルデータのセマンティック特徴に基づいて、第1モーダルデータのセマンティック特徴にマッチングするターゲットセマンティック特徴を第2モーダル特徴ライブラリで探す。
【0059】
第1モーダルデータのセマンティック特徴と第2モーダルデータのセマンティック特徴とがマッチングするか否かは、2種のモーダルデータのセマンティック特徴の間の類似度が類似度閾値よりも大きいか否かを判断することによって決定できる。具体的には、第2モーダル特徴ライブラリに記憶されたN個の第2モーダルデータのセマンティック特徴と、第1モーダルデータのセマンティック特徴との間の特徴類似度をそれぞれに算出し、特徴類似度が類似度閾値よりも大きい第2モーダルデータのセマンティック特徴を、第1モーダルデータのセマンティック特徴にマッチングする第2モーダルデータのセマンティック特徴、即ち、ターゲットセマンティック特徴として決定することができる。上記方式に応じて、第2モーダル特徴ライブラリから1つ又は複数のターゲットセマンティック特徴を探すことができる。
【0060】
例示的には、第1モーダルデータはテキストであり、第2モーダルデータは画像であり、第1モーダルデータに対応するセマンティック特徴はテキスト特徴ベクトルであり、第2モーダルデータに対応するセマンティック特徴は画像特徴ベクトルであり、テキスト特徴ベクトルを用いて、画像特徴ライブラリから類似する画像特徴ベクトルを探索し、具体的な探索方式は、テキスト特徴ベクトル、画像特徴ベクトルを使用して特徴類似度を算出するとともに、特徴類似度が閾値よりも高い画像特徴ベクトルを、テキスト特徴ベクトルにマッチングするターゲット画像特徴ベクトルとする方式であってもよい。
【0061】
S303、ターゲットセマンティック特徴に応じて、第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを第2モーダルデータベースで決定する。
【0062】
第2モーダル特徴ライブラリが第2モーダルデータベースに関連付けられているため、第2モーダル特徴ライブラリで探したターゲットセマンティック特徴を利用することは、第2モーダルデータベースから当該ターゲットセマンティック特徴に対応する第2モーダルデータを決定し、さらにそれを第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータとすることができる。
【0063】
1つの実施例では、第2モーダル特徴ライブラリと第2モーダルデータベースとは、特徴インデックスによって関連付けられ、ステップS303の実現方式は具体的に、(1)ターゲットセマンティック特徴に対応する特徴インデックスを決定するステップと、(2)ターゲットセマンティック特徴に対応する特徴インデックスに基づいて、当該ターゲットセマンティック特徴に対応する特徴インデックスの対応する第2モーダルデータを第2モーダルデータベースで決定するステップと、を含んでもよい。
【0064】
第2モーダル特徴ライブラリにおける各第2モーダルデータのセマンティック特徴は特徴インデックスと関連付けられており、かつ各特徴インデックスは唯一性を備え、特徴インデックスと第2モーダルデータベースにおける第2モーダルデータとも、関連関係が存在し、このように、第2モーダルデータベースにおける第2モーダルデータと、第2モーダル特徴ライブラリにおける第2モーダルデータのセマンティック特徴とは、特徴インデックスによって1つずつ関連付けることができ、これにより、探したターゲットセマンティック特徴に対応する特徴インデックスに基づいて、第2モーダルデータベースから当該特徴インデックスに対応する第2モーダルデータを選び、第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを取得することができる。
【0065】
S304、第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを第2集合に追加する。
【0066】
第2モーダルデータベースから決定された、第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータは、第2集合に追加でき、第2モーダルデータベースに記憶されたすべての第2モーダルデータについては、いずれも上記ステップに応じて処理することができ、さらに第1モーダルデータのセマンティック情報にマッチングするすべての第2モーダルデータを決定するとともに、それを第2集合に1つずつ追加し、また、最終的に得られる第2集合をクロスモーダル検索結果のうちの一部とすることができる。
【0067】
本願の実施例が提供するクロスモーダル検索方法は、第1モーダルデータのセマンティック情報という次元から検索し、第1モーダルデータ、第2モーダルデータとの2種のモーダルデータの各自に対応するセマンティック特徴を抽出することにより、同じセマンティック空間で、第1モーダルデータのセマンティック特徴と第2モーダルデータのセマンティック特徴とに対して特徴比較処理を行い、第2モーダル特徴ライブラリから第1モーダルデータのセマンティック特徴にマッチングするターゲットセマンティック特徴を探し、さらに探したターゲットセマンティック特徴に基づいて、第2モーダルデータベースから第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを決定し、クロスモーダル検索結果を取得する。このような方式は本質的に、クロスモーダル特徴に基づいて検索する方式であり、セマンティック面のクロスモーダル特徴により、第1モーダルデータにマッチングする検索結果をより快速で正確に検索することができ、ある程度にクロスモーダル検索結果の多様性を増やすこともできる。
【0068】
以上により分かるように、第1モーダルデータのセマンティック情報に基づいて第2モーダルデータで検索することは、第2モーダル特徴ライブラリを介する必要があり、次に、第2モーダル特徴ライブラリに記憶された第2モーダルデータのセマンティック特徴の取得方式を詳しく紹介する。
【0069】
1つの実施例では、クロスモーダル検索モデルは第2モーダル処理ネットワークを含み、第2モーダルデータベースに記憶されたN個の第2モーダルデータのセマンティック特徴は、クロスモーダル検索モデルにおける第2モーダル処理ネットワークを通じてN個の第2モーダルデータに対してそれぞれに特徴抽出を行って得られたものである。第2モーダル処理ネットワークは、第2モーダルデータに対する処理ネットワークであり、機能が異なる多種のネットワークを含むことができる。第2モーダルデータが画像であることを例として、第2モーダル処理ネットワークは具体的に、画像処理ネットワークであってもよい。
【0070】
選択可能に、第2モーダル処理ネットワークは、特徴抽出ネットワーク、プーリング処理ネットワーク、及び特徴統合ネットワークを含み、記述を便利にさせるために、N個の第2モーダルデータのうちのいずれか1つは、第i個の第2モーダルデータとして示し、iは正の整数であり、かつiはN以下であり、即ち、すべてのN個の第2モーダルデータはいずれも、下記のステップに応じて処理し、対応するセマンティック特徴を取得する。これに基づいて、クロスモーダル検索モデルにおける第2モーダル処理ネットワークを通じてそれぞれにN個の第2モーダルデータに対して特徴抽出処理を行い、N個の第2モーダルデータのセマンティック特徴を取得するステップは具体的に、第2モーダル処理ネットワークにおける特徴抽出ネットワークを通じて、第i個の第2モーダルデータの初期特徴を抽出するステップと、第2モーダル処理ネットワークにおけるプーリング処理ネットワークを通じて、初期特徴に対してプーリング処理を行い、第i個の第2モーダルデータのプーリング特徴を取得するステップと、特徴統合ネットワークを通じて、プーリング特徴に対して統合処理を行い、第i個の第2モーダルデータのセマンティック特徴を取得するステップと、を含んでもよい。
【0071】
なお、特徴抽出ネットワークは、画像処理用のディープモデルであってもよく、例えば、通常の畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)モデル、又は特徴抽出用のVIT(Vision Transformer)モデルであり、特徴抽出ネットワークは、第2モーダル処理ネットワークにおけるバックボーンネットワーク(Backbone)であり、主に第2モーダルデータの初期特徴を抽出して、後続のネットワークに使用させる。プーリング処理ネットワークは、特徴抽出ネットワークから出力された初期特徴に対してプーリング処理を行い、具体的には、グローバル平均プーリング処理(Global Average Pooling、GAP)であってもよく、この場合、プーリング処理ネットワークは、グローバル平均プーリング層と呼ばれてもよく、グローバル平均プーリングにより、パラメータ量を低減し、オーバーフィッティングを防止することができるだけでなく、グローバル空間情報を統合し、第2モーダルデータの特徴をよりロバストにすることもできる。その後、特徴統合ネットワークを呼び出してプーリング処理ネットワークから出力されたプーリング特徴に対して統合処理を行い、第i個の第2モーダルデータのセマンティック特徴を取得することができる。当該特徴統合ネットワークは具体的に、特徴完全接続層であってもよく、完全接続層が、入力されるオブジェクトが1次元のものであることを要求するため、プーリング特徴が特徴統合ネットワークに入力されて処理される前に、1次元の特徴に平坦化する必要があり、そして、さらに特徴統合ネットワークにより当該1次元の特徴を処理して、第2モーダルデータのセマンティック特徴を取得する。
【0072】
なお、上記方式は、N個の第2モーダルデータのうちのいずれか1つの第2モーダルデータについてクロスモーダル検索モデルにより処理する原理であり、つまり、N個の第2モーダルデータのうちのそれぞれの第2モーダルデータについて、いずれも同じ処理ステップを採用して第2モーダルデータのセマンティック特徴を抽出し、さらに第2モーダル特徴ライブラリに記憶することができる。
【0073】
1つの可能な実施例では、第2モーダル処理ネットワークはさらに、分類ネットワークを含み、さらに、分類ネットワークを通じて、プーリング特徴に基づいて分類予測処理を行い、第i個の第2モーダルデータのカテゴリラベルを取得して、第i個の第2モーダルデータのカテゴリラベルを第2モーダルデータベースに追加するようにしてもよい。当該分類ネットワークは分類完全接続層であってもよく、特徴完全接続層と似ているように、分類完全接続層が処理するプーリング特徴も、平坦化した後の1次元特徴であり、分類完全接続層の出力が活性化関数(例えば、Sigmoid関数)を通じて、第i個の第2モーダルデータが各々のカテゴリに属するスコアを取得することにより、対応するカテゴリラベルを取得する。第2モーダルデータベースにおけるN個の第2モーダルデータのカテゴリラベルについてはいずれも、上記分類ネットワークを採用して多分類処理を行うことで取得でき、それに、各々の第2モーダルデータのカテゴリラベルはいずれも、第2モーダルデータベースに追加でき、これにより、第1モーダルデータを処理する場合、各々の第2モーダルデータのカテゴリラベルと第1モーダルデータの内容情報との間の類似度に応じて、第1モーダルデータにマッチングする第2モーダルデータを検索することを便利にさせる。
【0074】
上記の第2モーダル処理ネットワークに対する記述に基づいて、第2モーダル処理ネットワークの具体的な構造を知ることができる。仮に第2モーダルデータが画像であれば、第2モーダル処理ネットワークが具体的に画像エンコーダであり、特徴抽出ネットワーク、プーリングネットワーク、特徴統合ネットワーク及び分類ネットワークを含み、具体的には、それぞれバックボーンネットワーク、グローバル平均プーリング層、特徴完全接続層及び分類完全接続層であり、第2モーダルデータベースが具体的に画像ライブラリであり、第2モーダル特徴ライブラリが具体的に画像特徴ベクトル探索セットであり、第2モーダル処理ネットワークの第2モーダルデータを処理する処理フローについて、
図4bに示すようなクロスモーダル検索モデルにおける画像エンコーダの構造を結合して以下のような例示的な説明を行う。
【0075】
図4bに示すようなクロスモーダル検索モデルにおける画像エンコーダは具体的に、バックボーンネットワークBackbone、グローバル平均プーリング層、分類完全接続層及び特徴完全接続層を含む。仮にセッションオブジェクトがセッションで送受信した画像がXIであれば、画像XIが画像エンコーダに入力され、画像エンコーダは、画像のマルチラベル分類結果C
I={c
1、c
2、…、c
n}及び画像の特徴ベクトルf
I(又は画像特徴ベクトルと呼ぶ)を出力することができ、具体的な処理過程は以下のとおりである。まず、画像は画像エンコーダの入力とし、画像エンコーダのバックボーンネットワーク(例えば、CNN又はVIT)を通じて画像の特徴マップ(即ち、初期特徴)を取得し、そして、画像の特徴マップは、グローバル平均プーリング処理を経て1次元のベクトルに平坦化し、その後、平坦化した1次元のベクトルを分類完全接続層(Cls FC)に入力して長さCの1次元のベクトルを出力し、Sigmoid関数を通じて各カテゴリのスコアを取得することにより、対応するカテゴリラベルC
I={c
1、c
2、…、c
n}を取得し、同時に、当該1次元のベクトルはさらに、特徴完全接続層(Feature FC)に入力されて長さd(仮に512であれば)のベクトルを出力し、さらにL2正規化(L2 Normalization)を通じて、画像の特徴ベクトルf
Iとする。画像の特徴ベクトルf
Iは、画像特徴ベクトル探索セット(第2モーダル特徴ライブラリに対応する)に記憶されるが、画像に対応するマルチラベル分類のカテゴリラベルは、第2モーダルデータベースに記憶されることができ、最後に、さらに画像特徴ベクトルf
Iに応じて、対応する画像特徴ベクトルのインデックスを新たに増やして画像特徴ベクトル探索セットG
Iに増加することができ、これにより、画像ライブラリからターゲット画像を快速に検索するようにアシストすることを便利にさせる。
【0076】
上記の
図4aに示すクロスモーダル検索モデルにおける第1モーダル処理ネットワーク、及び
図4bに示すクロスモーダル検索モデルにおける第2モーダル処理ネットワークを結合すれば、クロスモーダル検索モデルを利用して検索する場合、第1モーダルデータに対する具体的な処理過程は以下のとおりである。記述を便利にさせるために、第1モーダルデータがテキストであり、第1モーダル処理ネットワークが対応的にテキストエンコーダであることを例として説明し、出力されるテキスト特徴ベクトル、画像特徴ベクトルは、同じセマンティック特徴空間にマッピングされかつ次元が同じである特徴ベクトルであり、テキストに対する処理は具体的に以下のステップを含み、即ち、まず、テキストの内容情報から画像ライブラリで検索し、具体的には、画像ライブラリから、テキストqueryと完全にマッチングするラベルを含む画像をクエリし、マッチングされた画像を画像セットAとしてリコールすることができる。同時に、テキストはテキストエンコーダに入力され、テキストエンコーダは、長さdのベクトルを出力し、L2正規化を通じて、テキスト特徴ベクトルf
Tを取得し、そして、テキスト特徴ベクトルf
Tを用いて画像特徴ベクトル探索セットG
I(それに含まれる画像特徴ベクトルは、
図4bに示すような画像エンコーダが画像を処理して得られたものである)から類似する画像特徴ベクトルを探索し、対応する画像セットBをリコールし、具体的な探索方式は、テキスト特徴ベクトルf
T、探索セットにおける画像特徴ベクトルf
Iを用いて特徴類似度、即ち、S=f
T・f
Iを算出し、特徴類似度Sが閾値θよりも高い画像を画像セットBとして探索し、最終的に画像セットAと画像セットBとをマージし、クロスモーダル検索結果を取得する方式である。
【0077】
1つの実施例では、上記のクロスモーダル検索モデルの構造及び機能に対する記述を結合すれば、クロスモーダル検索モデルは第1モーダル処理ネットワークと、第2モーダル処理ネットワークとを含み、具体的なトレーニング過程は以下のとおりであってもよい。1)クロスモーダルトレーニングデータセットを取得し、クロスモーダルトレーニングデータセットは、複数組のクロスモーダルサンプルデータを含み、各組のクロスモーダルサンプルデータは、第2モーダルサンプルデータ、第1モーダルサンプルデータ、及び当該第2モーダルサンプルデータと当該第1モーダルサンプルデータとの間のマッチング結果を含み、2)クロスモーダル検索モデルにおける第1モーダル処理ネットワークを通じて、クロスモーダルサンプルデータのうちの第1モーダルサンプルデータに対して特徴抽出処理を行い、第1モーダルサンプルデータのセマンティック特徴を取得し、クロスモーダル検索モデルにおける第2モーダル処理ネットワークを通じて、クロスモーダルサンプルデータのうちの第2モーダルサンプルデータに対して特徴抽出処理を行い、第2モーダルサンプルデータのセマンティック特徴を取得し、3)第1モーダルサンプルデータのセマンティック特徴と第2モーダルサンプルデータのセマンティック特徴との間のクロスモーダルコントラスト損失に応じて、クロスモーダル検索モデルに対して反復トレーニングを行い、トレーニングされたクロスモーダル検索モデルを取得する。
【0078】
トレーニングデータ準備段階では、相応するシーンによって生成された業務データから、クロスモーダルトレーニングデータセットを取得することができ、クロスモーダルトレーニングデータセットは、2種の異なるモーダルサンプルデータの集合であり、クロスモーダル検索モデルのトレーニングについては、各組のクロスモーダルサンプルデータを単位としてクロスモーダル検索モデルに入力して処理するようにしてもよい。例を挙げると、第1モーダルサンプルデータ、第2モーダルサンプルデータはそれぞれ、テキスト、画像であり、それでは、各組のクロスモーダルサンプルデータは、画像-テキストペアであってもよく、即ち、画像と、画像に対応するテキスト記述は画像-テキストペアを構成でき、大量の画像-テキストペアは、クロスモーダルトレーニングデータセットを構成できる。
【0079】
クロスモーダル検索モデルのトレーニング過程について、具体的には、第1モーダル処理ネットワーク、第2モーダル処理ネットワークに対してハイブリッドトレーニングを行う。K組のクロスモーダルサンプルデータを同時に入力することができ、そして、第1モーダル処理ネットワークを通じて第i組のクロスモーダルサンプルデータのうちの第1モーダルサンプルデータを処理し、当該第1モーダルサンプルデータのセマンティック特徴を取得し、第2モーダル処理ネットワークを通じて第i組のクロスモーダルサンプルデータのうちの第2モーダルサンプルデータを処理し、当該第2モーダルサンプルデータのセマンティック特徴を取得し、さらに、2種の異なるモーダルサンプルデータのセマンティック特徴に応じてクロスモーダルコントラスト損失を算出し、当該クロスモーダルコントラスト損失に基づいてクロスモーダル検索モデルに対して反復トレーニングを行い、収束するまでモデルパラメータを継続的に更新すると、トレーニングされたモデルを取得することができる。
【0080】
第2モーダル処理ネットワークが分類処理ネットワークを含む場合、クロスモーダルトレーニングデータセットにはさらに、第2モーダルサンプルデータに対応するカテゴリラベルが含まれてもよく、具体的には、トレーニング過程はさらに、クロスモーダル検索モデルにおける第2モーダル処理ネットワークを通じてクロスモーダルサンプルデータのうちの第2モーダルサンプルデータに対して分類予測処理を行い、第2モーダルサンプルデータのカテゴリ予測情報を取得するステップと、カテゴリ予測情報とカテゴリラベルに応じて第2モーダルサンプルデータの分類損失を決定するステップと、分類損失とクロスモーダルコントラスト損失に応じてクロスモーダル検索モデルに対して反復トレーニングを行い、トレーニングされたクロスモーダル検索モデルを取得するステップと、を含んでもよい。カテゴリ予測情報は、第2モーダルサンプルデータが各々のカテゴリに属する予測確率を含んでもよく、分類損失については、クロスエントロピー損失を使用してもよく、その後、分類損失とクロスモーダルコントラスト損失とを合わせて合計損失とすることができ、例えば、分類損失、クロスモーダルコントラスト損失に対して加重加算を行って合計損失を取得し、さらにオプティマイザ(例えば、確率勾配降下(Stochastic Gradient Descent、SGD)オプティマイザ)でクロスモーダル検索モデルのモデルパラメータを更新し、モデルパラメータが収束するまで上記トレーニング過程を継続的に重複し、トレーニングされたクロスモーダル検索モデルを取得する。このように、クロスモーダル検索モデルは、第1モーダルデータ、第2モーダルデータのセマンティック特徴抽出処理に適用され、クロスモーダル特徴に基づいて、第1モーダルデータと第2モーダルデータとの間のマッチング度を検出することができるだけでなく、クロスモーダル検索モデルはさらにマルチラベル分類機能を備え、第2モーダルデータのためにカテゴリラベルを生成して第2モーダルデータベースに記憶する。
【0081】
トレーニング段階の原理をよりよく理解するために、以下、第1モーダル処理ネットワークがテキストエンコーダであり、第2モーダル処理ネットワークが画像エンコーダであることを例として、クロスモーダル検索モデルのトレーニング過程に対して以下のように例を挙げて説明する。
図5を参照すると、本願の実施例が提供するクロスモーダル検索モデルのトレーニング概略図である。仮にクロスモーダルトレーニングデータセットがK組の画像-テキストペア(又は画像テキストペアという)を含めば、トレーニングの場合、K組の画像-テキストペアを同時に入力し、それぞれに画像エンコーダ、テキストエンコーダにより画像特徴ベクトル
【数1】
、テキスト特徴ベクトル
【数2】
を取得し、それに、画像エンコーダはさらに、カテゴリ予測確率PIに対応する画像のC個のカテゴリの予測確率を出力する。その後、InfoNCE lossを用いて画像-テキストペアの間のクロスモーダルコントラスト損失を算出することができ、具体的な表現式は以下のとおりである。
【数3】
【0082】
なお、
【数4】
は第i個の画像特徴ベクトルを示し、
【数5】
は第i個のテキスト特徴ベクトルを示す。クロスモーダルコントラスト損失の主な思想は、最大化類似性、最小化差異性の損失であり、具体的に言えば、画像-テキストペアを正サンプルペア、負サンプルペアに分割することができ、正サンプルペアとは、画像とテキスト記述とがマッチングする画像-テキストペアを指し、負サンプルペアとは、画像とテキスト記述とがマッチングしない画像-テキストペアを指す。クロスモーダルコントラスト損失において、
【数6】
で正サンプルペアの間の類似度を示し、
【数7】
で負サンプルペアの間の類似度を示し、このように、クロスモーダルコントラスト損失が小さいほど、第1モーダルサンプルデータと第2モーダルサンプルデータとはマッチングする。
【0083】
画像の分類損失Lclsについては、クロスエントロピー損失(Cross Entropy Loss、CEL)で算出することができ、LclsとLinfoNCEとを合わせて合計損失とし、収束するまで、SGDオプティマイザでモデルパラメータを更新する。
【0084】
上記実施例の紹介に基づいて、第1モーダルデータがテキストであり、第2モーダルデータが画像であることを例として、クロスモーダル検索手段で採用されるアルゴリズムフローを説明し、具体的には、
図6に示すようなアルゴリズムフローチャートを参照可能である。画像が画像エンコーダに入力されてマルチラベル分類を行うと、カテゴリラベルを取得することができ、検索テキスト(queryと表記する)がカテゴリラベルと完全に同等である場合、関連画像をマッチングすることができる。なお、画像エンコーダはさらに、画像特徴ベクトルを出力するとともに、画像特徴ベクトルと、新たに増やしたインデックスを画像特徴ベクトル探索セットに追加することができる。検索テキストqueryについて、テキストエンコーダに入力し、テキスト特徴ベクトルを出力し、そして、テキスト特徴ベクトルに基づいて画像特徴ベクトル探索セットから類似する画像特徴ベクトルを探索し、当該類似する画像特徴ベクトルに基づいて対応する画像セットをリコールすることができる。このような、クロスモーダル特徴に基づいて検索する手段は、分類モデルの固定クラスラベル体系に依存しなく、異なるモーダルデータの特徴によりマッチングすることができるため、より多様で複雑なテキスト記述をサポートでき、これにより、検索語の入力の自由度をアップし、ターゲット写真をより速く、より正確に、かつより全面的に見つけることができる。
【0085】
図7を参照すると、本願の実施例が提供するクロスモーダル検索方法の第3の概略フローチャートであり、当該クロスモーダル検索方法は、コンピュータデバイス(例えば、
図1に示すクロスモーダル検索デバイス102、当該クロスモーダル検索デバイス102は具体的に端末であってもよい)によって実行されてもよい。当該クロスモーダル検索方法は、ステップS701~S703を含むが、これらに限られない。
【0086】
S701、ソーシャルセッションのセッションインターフェースを表示する。
ここでのソーシャルセッションは、個人対個人の間のセッション、又はグループのセッションであってもよい。ソーシャルセッションのセッションインターフェースにおいて、セッションオブジェクトは、セッションメッセージ、例えば、画像、テキスト、音声等を送受信することができる。セッションインターフェースで受信したセッションメッセージが第2モーダルデータを含む場合、クロスモーダル検索モデルにおける第2モーダル処理ネットワークを呼び出して第2モーダルデータを処理し、マルチラベル分類のカテゴリラベル及び第2モーダルデータのセマンティック特徴を出力し、さらに、カテゴリラベルを第2モーダルデータベースに格納し、第2モーダルデータのセマンティック特徴(例えば、画像特徴ベクトル)を第2モーダル特徴ライブラリに格納することができる。
【0087】
ソーシャルセッションのセッションインターフェースは、履歴セッション記録のチェック機能を提供できる。具体的には、セッションインターフェースからセッション詳細インターフェースに入るようにしてもよく、当該セッション詳細インターフェースには履歴セッション記録のチェックエントリが含まれ、セッションオブジェクトは、当該チェックエントリによりチェック操作を開始し、具体的な履歴セッション記録をチェックして検索することができ、具体的には、下記のステップS702~S703を参照可能である。
【0088】
S702、ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示する。
当該セッション記録詳細インターフェースには、ソーシャルセッションの履歴セッション記録における第2モーダルデータが含まれる。ソーシャルセッションの履歴セッション記録には、異なるモーダルのデータ、例えば、画像、動画、テキスト、オーディオ等が含まれてもよく、セッションオブジェクトは、異なるモーダルのデータを選択してチェックすることができ、ここで、履歴セッション記録に対するチェックは主に、第2モーダルデータに対するチェックであり、よって、セッション記録詳細インターフェースに展示されるのは、履歴セッション記録で生成された第2モーダルデータである。
【0089】
なお、第2モーダルデータの数が少ないと、第2モーダルデータは、セッション記録詳細インターフェースに全表示することができ、第2モーダルデータの数が多いと、現在のセッション記録詳細インターフェースに表示されるのは、第2モーダルデータの一部である。例示的には、第2モーダルデータは画像であり、セッション記録詳細インターフェースは具体的にチャットフォトウォールであり、表示される画像は同等のサイズで12枚表示でき、履歴セッション記録におけるすべての画像が10枚あるならば、セッション記録詳細インターフェースに全表示することができ、12枚を超えると、多くとも12枚表示され、他の画像をチェックする場合、例えば、下へスライドする操作を実行して展示する必要があり、その後、セッション記録詳細インターフェースにおいて、第1モーダルデータで第2モーダルデータを検索し、第1モーダルデータにマッチングする第2モーダルデータ、即ち、クロスモーダル検索結果を出力することをサポートできる。
【0090】
図8aを参照すると、本願の実施例が提供する、履歴セッション記録に対するチェックの操作概略図である。
図8aにおける(1)のセッションインターフェース810には、履歴セッション記録を探すエントリ、即ち、「チャット内容を探す」が提供され、当該エントリをトリガすると、
図8aにおける(2)に示すような履歴セッション記録検索インターフェース811に入ることができ、この履歴セッション記録検索インターフェースにおいて、相応する検索タイプを選択するとともに、当該検索タイプの履歴セッション記録を全表示することができ、例えば、写真と動画を選択する場合、セッション記録詳細インターフェースに812にチャットフォトウォールを展示し、それに、チャットフォトウォールは、日付に応じて展示されるすべての写真と動画であり、具体的には
図8aにおける(3)のようにし、当該セッション記録詳細インターフェース812は、写真又は動画の検索を便利にさせるように、検索ボックス8120を提供する。
【0091】
1つの実施例では、ソーシャルセッションの履歴セッション記録における第2モーダルデータは、第2モーダルデータベースに記憶され、かつ第2モーダルデータベースには第2モーダルデータの属性情報が記憶されている。履歴セッション記録における第2モーダルデータを第2モーダルデータベースに分けて記憶することにより、第2モーダルデータに対する検索を開始する場合、グローバルな履歴セッション記録から探すことなく、直接に当該第2モーダルデータベースから探すことができ、第2モーダルデータの検索効率をアップすることに有利であり、同時に第2モーダルデータベースには第2モーダルデータの属性情報が記憶されており、属性情報の異なりにより、さらに検索次元を拡張することができる。
【0092】
属性情報は、カテゴリラベルと、第2モーダルデータに関連付けられた第1モーダル記述情報と、第2モーダルデータから認識された第1モーダル記述情報と、の少なくとも1つを含む。カテゴリラベルは、手動又は機器(例えば、分類モデル)で第2モーダルデータを分類することによって生成されるアノテーション情報であってもよく、第1モーダル記述情報は、第2モーダルデータに関する記述情報であり、具体的には、第2モーダルデータから認識されたものであってもよいし、履歴セッション記録から生成された、それに関連付けられたものであってもよい。例示的には、第2モーダルデータは画像であり、履歴セッション記録における画像が、テキストを含む画像である場合、画像を認識することで当該画像中のテキストを取得するとともに、それを第1モーダル記述情報とすることができ、ソーシャルセッションのセッションオブジェクトが画像を送信した直後に、当該画像に対するテキスト記述情報、例えば、「ほら、Aパークはすごく変わった」との情報を送信すると、それでは、当該テキスト記述情報に応じて、当該画像に関する記述を生成することができ、例えば、キーワードである「Aパーク」を画像の第1モーダル記述情報として抽出する。
【0093】
S703、セッション記録詳細インターフェースに入力された第1モーダルデータに応答して、第1モーダルデータに対応するクロスモーダル検索結果を出力する。
【0094】
クロスモーダル検索結果は、上記実施例で紹介したクロスモーダル検索方法を採用して得られたものであり、出力されるクロスモーダル検索結果は、セッション記録詳細インターフェースに入力された第1モーダルデータにマッチングするすべての第2モーダルデータを含む。
【0095】
1つの実施例では、第1モーダルデータはテキストであり、第2モーダルデータは画像であり、セッション記録詳細インターフェースには検索ボックスが含まれ、第1モーダルデータは、検索ボックスに入力して得られたものであり、又は、セッション記録詳細インターフェースにはさらに、少なくとも1つの推薦テキストが含まれ、第1モーダルデータは、少なくとも1つの推薦テキストから選択することによって得られたものである。つまり、セッション記録詳細インターフェースに入力された第1モーダルデータは、入力デバイス(例えば、物理/仮想キーボード、スマート音声デバイス)等を介して手動で検索ボックスに入力されたものであってもよいし、セッション記録詳細インターフェースから提供される推薦テキストから選択されたものであってもよい。選択可能に、選択された推薦テキストは、自動的に検索ボックスに充填され、自動的に検索機能を起動することができる。セッション記録詳細インターフェースにおける推薦テキストは、ランダムに生成されたものであってもよいし、第2モーダルデータの属性情報又は第2モーダルデータのセマンティック特徴に応じて生成されたものであってもよい。上記クロスモーダル検索方法の技術的サポートにより、検索ボックスに入力されたテキストは、直感的な表現を満たす画像記述であってもよい。簡単に言えば、文字ベースの画像検索を例として、セッションオブジェクトが検索ボックスで検索する場合、検索テキストにマッチングするカテゴリラベルの画像を第2モーダルデータベースでクエリしてリコールすることができ、同時に、クロスモーダル検索モデルにおけるテキストエンコーダを介して検索テキストを処理することができ、対応するテキスト特徴ベクトルを出力し、画像特徴ベクトル探索セットから類似する画像特徴ベクトルを探索し、対応する画像集合をリコールし、最終的にすべてのリコールされた画像をマージしてセッションオブジェクトに展示する。
【0096】
例示的には、
図8bを参照すると、本願の実施例が提供するクロスモーダル検索の操作概略図であり、
図8bにおける(1)に示すように、セッション記録詳細インターフェースは検索ボックス8220を提供し、当該検索ボックス8220には、検索が画像記述又は図内文字の入力をサポートすることが提示され、画像記述は、画像に含まれる内容へのセマンティック解釈であり、図内文字は、画像の内容情報に属する。なお、
図8bにおける「チケット」、「スクリーンショット」等のような、自動的に生成された推薦テキストも、当該セッション記録詳細インターフェースに展示され、推薦テキストにより、より多くの参照、利便な操作を提供することができる。検索ボックス8220にクエリテキストを入力して検索機能をトリガする場合、検索結果インターフェースを出力し、当該クエリテキストにマッチングする写真を検索結果インターフェースに展示することができ、
図8bにおける(2)に示すように、検索結果インターフェース823に展示されるのは、入力されたクエリテキストの「食べ物」にマッチングする3枚の写真であり、クロスモーダル検索結果に属する。
【0097】
1つの実施例では、さらに、第1検索規則に対する選択に応答して、クロスモーダル検索結果のうち、第1モーダルデータの内容情報にマッチングする第2モーダルデータを出力し、又は、第2検索規則に対する選択に応答して、クロスモーダル検索結果のうち、第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを出力するようにしてもよい。
【0098】
第1検索規則、第2検索規則は、異なる次元から検索する規則であり、異なる次元に応じて検索することができ、また、全部のクロスモーダル検索結果を異なる検索次元に応じて分けて表示することができる。第1検索規則に応じて検索することは、第1モーダルデータの内容情報にマッチングする第2モーダルデータを取得して出力することができ、第2検索規則に応じて検索することは、第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを取得して出力することができる。つまり、単一の検索次元を指定でき、例えば、第1モーダルデータがテキストであり、第2モーダルデータが画像である場合、画像による検索、文字による検索ができ、画像による検索は具体的に、画像の記述に応じて検索することを指し、即ち、画像のセマンティック情報という次元にマッチングすることにより検索し、文字による検索は具体的に、図内文字に応じて検索することを指し、即ち、画像の内容情報という次元にマッチングすることにより検索する。
【0099】
例示的には、
図8cを参照すると、本願の実施例が提供する、クロスモーダル検索結果を出力する効果概略図である。
図8cに示すように、
図8bにおける(2)が提供するクロスモーダル検索結果に基づいて展示される、クエリテキストにマッチングする全部の写真であり、異なる検索次元に応じて検索して得られたものである。画像による検索、又は文字による検索を選択する場合、異なるクロスモーダル検索結果を呈示し、それぞれに
図8cにおける(1)、
図8cにおける(2)に示すようであり、当該検索結果インターフェースにおいて、テキストのセマンティック情報が画像のセマンティック情報にマッチングする写真、又はテキストの内容情報が画像の属性情報(例えば、画像のカテゴリラベル)にマッチングする写真を展示することができる。本手段は、多種のシーンに適用されることができ、本実施例が紹介する、ソーシャルセッションの履歴セッション記録に基づくクロスモーダル検索以外に、マルチメディアデータ検索をサポートする他のシーン、例えば、ショートビデオ検索のシーンに適用されることもでき、これに対して制限しない。
【0100】
本願の実施例が提供するクロスモーダル検索手段は、ソーシャルセッションの履歴セッション記録におけるクロスモーダル検索シーンをサポートでき、具体的には、図文クロスモーダル検索のシーンに適用されることができ、即ち、検索ボックスに検索語を入力することでターゲット写真を検索し、クロスモーダル検索が検索語の複数の次元から検索するため、検索語は、写真のカテゴリラベルに完全にマッチングしなくても、相応する写真を見つけることができ、よって、より直感的な表現を満たす、より多様で複雑な画像記述を入力することでターゲット写真を探すことは、入力の自由度をアップできるだけでなく、ターゲット写真を検索する確率を大幅にアップし、クロスモーダル検索結果の多様性を向上させることもでき、なお、推薦テキスト(例えば、推薦する検索語)を提供することにより、ある程度に検索効率をアップすることもできる。
【0101】
図9を参照すると、
図9は本願の実施例が提供するクロスモーダル検索装置の構造概略図である。上記クロスモーダル検索装置は、コンピュータデバイスで実行される1つのコンピュータプログラム(プログラムコードを含む)であってもよく、例えば、当該クロスモーダル検索装置は1つのアプリケーションソフトウェアであり、当該クロスモーダル検索装置は、本願の実施例が提供する方法の相応するステップを実行するために用いられてもよい。
図9に示すように、当該クロスモーダル検索装置900は、取得モジュール901と、検索モジュール902と、マージモジュール903と、を含んでもよい。
取得モジュール901は、第1モーダルデータを取得するために用いられ、
検索モジュール902は、第1モーダルデータの内容情報に基づいて第2モーダルデータベースで検索し、第1集合を取得するために用いられ、第1集合には、第1モーダルデータの内容情報にマッチングする少なくとも1つの第2モーダルデータが含まれ、
検索モジュール902はさらに、第1モーダルデータのセマンティック情報に基づいて第2モーダルデータベースで検索し、第2集合を取得するために用いられ、第2集合には、第1モーダルデータのセマンティック情報にマッチングする少なくとも1つの第2モーダルデータが含まれ、
マージモジュール903は、第1集合と第2集合とをマージし、第1モーダルデータに対応するクロスモーダル検索結果を取得するために用いられる。
【0102】
1つの実施例では、第2モーダルデータベースにはN個の第2モーダルデータ、及びN個の第2モーダルデータの各自の属性情報が記憶されており、Nは正の整数であり、検索モジュール902は具体的に、前記N個の第2モーダルデータのうちの各第2モーダルデータについて、第1モーダルデータの内容情報と当該第2モーダルデータの属性情報との間のマッチング度を、前記第2モーダルデータに対応するマッチング度として決定し、対応するマッチング度がマッチング条件を満たす第2モーダルデータを第1集合に追加するために用いられる。
【0103】
1つの実施例では、属性情報は第1モーダル記述情報を含み、N個の第2モーダルデータのうちのいずれか1つは、第i個の第2モーダルデータとして示し、iは正の整数であり、かつiはN以下であり、検索モジュール902は具体的に、第1モーダルデータの内容情報と第i個の第2モーダルデータの第1モーダル記述情報との間のセマンティック類似度を、前記第i個の第2モーダルデータに対応するマッチング度として決定し、第1モーダルデータの内容情報と第i個の第2モーダルデータの第1モーダル記述情報との間のセマンティック類似度が第1類似閾値よりも大きいと、第i個の第2モーダルデータを第1集合に追加するために用いられる。
【0104】
1つの実施例では、属性情報はカテゴリラベルを含み、N個の第2モーダルデータのうちのいずれか1つは、第i個の第2モーダルデータとして示し、iは正の整数であり、かつiはN以下であり、検索モジュール902は具体的に、第1モーダルデータの内容情報と第i個の第2モーダルデータのカテゴリラベルとの間の類似度を、前記第i個の第2モーダルデータに対応するマッチング度として決定し、第1モーダルデータの内容情報と第i個の第2モーダルデータのカテゴリラベルとの間の類似度が第2類似閾値よりも大きいと、第i個の第2モーダルデータを第1集合に追加するために用いられる。
【0105】
1つの実施例では、第2モーダルデータベースにはN個の第2モーダルデータが記憶されており、第2モーダルデータベースは、N個の第2モーダルデータの各自のセマンティック特徴が記憶されている第2モーダル特徴ライブラリと関連付けられており、検索モジュール902は具体的に、さらに、第1モーダルデータのセマンティック特徴を取得し、第1モーダルデータのセマンティック特徴に基づいて、第1モーダルデータのセマンティック特徴にマッチングするターゲットセマンティック特徴を第2モーダル特徴ライブラリで探し、ターゲットセマンティック特徴に応じて、第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを第2モーダルデータベースで決定し、第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを第2集合に追加するために用いられる。
【0106】
1つの実施例では、第2モーダル特徴ライブラリと第2モーダルデータベースとは、特徴インデックスによって関連付けられ、検索モジュール902は具体的に、ターゲットセマンティック特徴の特徴インデックスを決定し、ターゲットセマンティック特徴の特徴インデックスに基づいて、ターゲットセマンティック特徴の特徴インデックスに対応する第2モーダルデータを第2モーダルデータベースで決定するために用いられる。
【0107】
1つの実施例では、第2モーダル特徴ライブラリに記憶されたN個の第2モーダルデータの各自のセマンティック特徴は、クロスモーダル検索モデルにおける第2モーダル処理ネットワークを通じてN個の第2モーダルデータに対してそれぞれに特徴抽出処理を行って得られたものであり、クロスモーダル検索モデルはさらに、第1モーダル処理ネットワークを含み、検索モジュール902は具体的に、クロスモーダル検索モデルにおける第1モーダル処理ネットワークを通じて、第1モーダルデータに対して特徴抽出処理を行い、第1モーダルデータのセマンティック特徴を取得するために用いられる。
【0108】
1つの実施例では、第2モーダル処理ネットワークは、特徴抽出ネットワーク、プーリング処理ネットワーク、及び特徴統合ネットワークを含み、N個の第2モーダルデータのうちのいずれか1つは、第i個の第2モーダルデータとして示し、iは正の整数であり、かつiはN以下であり、検索モジュール902は具体的に、第2モーダル処理ネットワークにおける特徴抽出ネットワークを通じて、第i個の第2モーダルデータの初期特徴を抽出し、第2モーダル処理ネットワークにおけるプーリング処理ネットワークを通じて、初期特徴に対してプーリング処理を行い、第i個の第2モーダルデータのプーリング特徴を取得し、特徴統合ネットワークを通じて、プーリング特徴に対して統合処理を行い、第i個の第2モーダルデータのセマンティック特徴を取得するために用いられる。
【0109】
1つの実施例では、第2モーダル処理ネットワークはさらに、分類ネットワークを含み、検索モジュール902は具体的に、さらに、分類ネットワークを通じて、プーリング特徴に基づいて分類予測処理を行い、第i個の第2モーダルデータのカテゴリラベルを取得し、第i個の第2モーダルデータのカテゴリラベルを第2モーダルデータベースに追加するために用いられる。
【0110】
1つの実施例では、当該クロスモーダル検索装置はさらにトレーニングモジュール904を含み、クロスモーダルトレーニングデータセットを取得し、クロスモーダルトレーニングデータセットは、複数組のクロスモーダルサンプルデータを含み、各組のクロスモーダルサンプルデータは、第2モーダルサンプルデータ、第1モーダルサンプルデータ、及び第2モーダルサンプルデータと第1モーダルサンプルデータとの間のマッチング結果を含み、クロスモーダル検索モデルにおける第1モーダル処理ネットワークを通じて、クロスモーダルサンプルデータのうちの第1モーダルサンプルデータに対して特徴抽出処理を行い、第1モーダルサンプルデータのセマンティック特徴を取得し、クロスモーダル検索モデルにおける第2モーダル処理ネットワークを通じて、クロスモーダルサンプルデータのうちの第2モーダルサンプルデータに対して特徴抽出処理を行い、第2モーダルサンプルデータのセマンティック特徴を取得し、第1モーダルサンプルデータのセマンティック特徴と第2モーダルサンプルデータのセマンティック特徴との間のクロスモーダルコントラスト損失に応じて、クロスモーダル検索モデルに対して反復トレーニングを行い、トレーニングされたクロスモーダル検索モデルを取得するために用いられる。
【0111】
本願の実施例に記述のクロスモーダル検索装置の各機能モジュールの機能は、上記方法実施例における方法に応じて具体的に実現でき、その具体的な実現過程について、上記方法実施例の関連記述を参照可能であり、ここでは贅言しない。また、同じ方法を採用する有益な効果の記述に対しても、さらに贅言しない。
【0112】
図10を参照すると、
図10は本願の実施例が提供する別のクロスモーダル検索装置の構造概略図である。上記クロスモーダル検索装置は、コンピュータデバイスで実行される1つのコンピュータプログラム(プログラムコードを含む)であってもよく、例えば、当該クロスモーダル検索装置は1つのアプリケーションソフトウェアであり、当該クロスモーダル検索装置は、本願の実施例が提供する方法の相応するステップを実行するために用いられてもよい。
図10に示すように、当該クロスモーダル検索装置1000は、表示モジュール1001と、出力モジュール1002と、を含んでもよい。
表示モジュール1001は、ソーシャルセッションのセッションインターフェースを表示するために用いられ、
表示モジュール1001はさらに、ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示するために用いられ、セッション記録詳細インターフェースには、ソーシャルセッションの履歴セッション記録における第2モーダルデータが含まれ、
出力モジュール1002は、セッション記録詳細インターフェースに入力された第1モーダルデータに応答して、第1モーダルデータに対応するクロスモーダル検索結果を出力するために用いられ、クロスモーダル検索結果は、本願の実施例に記述のクロスモーダル検索方法を採用して得られたものである。
【0113】
1つの実施例では、ソーシャルセッションの履歴セッション記録における第2モーダルデータは、第2モーダルデータベースに記憶され、かつ第2モーダルデータベースには第2モーダルデータの属性情報が記憶されており、属性情報は、カテゴリラベルと、第2モーダルデータに関連付けられた第1モーダル記述情報と、第2モーダルデータから認識された第1モーダル記述情報と、の少なくとも1つを含む。
【0114】
1つの実施例では、第1モーダルデータはテキストであり、第2モーダルデータは画像であり、セッション記録詳細インターフェースには検索ボックスが含まれ、第1モーダルデータは、検索ボックスに入力して得られたものであり、又は、セッション記録詳細インターフェースにはさらに、少なくとも1つの推薦テキストが含まれ、第1モーダルデータは、少なくとも1つの推薦テキストから選択することによって得られたものである。
【0115】
1つの実施例では、出力モジュール1002は具体的に、第1検索規則に対する選択に応答して、クロスモーダル検索結果のうち、第1モーダルデータの内容情報にマッチングする第2モーダルデータを出力し、又は、第2検索規則に対する選択に応答して、クロスモーダル検索結果のうち、第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを出力するために用いられる。
【0116】
本願の実施例に記述のクロスモーダル検索装置の各機能モジュールの機能は、上記方法実施例における方法に応じて具体的に実現でき、その具体的な実現過程について、上記方法実施例の関連記述を参照可能であり、ここでは贅言しない。また、同じ方法を採用する有益な効果の記述に対しても、さらに贅言しない。
【0117】
なお、
図9のクロスモーダル検索装置、
図10のクロスモーダル検索装置は、同じコンピュータデバイスに配置されてもよいし、異なるコンピュータデバイスに配置されてもよい。同じコンピュータデバイスに配置される場合、コンピュータデバイスは、入力された第1モーダルデータに応じて自動的にデータベースから、第1モーダルデータにマッチングする第2モーダルデータを検索し、クロスモーダル検索結果を取得することができ、さらにコンピュータデバイスでクロスモーダル検索結果を出力し、異なるコンピュータデバイスに配置される場合、仮に
図9のクロスモーダル検索装置がコンピュータデバイスAに配置され、
図10のクロスモーダル検索装置がコンピュータデバイスBに配置されるならば、コンピュータデバイスBは、入力された第1モーダルデータを受信し当該第1モーダルデータをコンピュータデバイスAに送信する役割を果たし、さらにコンピュータデバイスAは、第1モーダルデータに基づいて第2モーダルデータベースで、第1モーダルデータにマッチングする第2モーダルデータを検索し、クロスモーダル検索結果を取得するとともに、当該クロスモーダル検索結果をコンピュータデバイスBに送信し、コンピュータデバイスBはクロスモーダル検索結果を展示する。
【0118】
図11を参照すると、
図11は本願の実施例が提供するコンピュータデバイスの構造概略図である。当該コンピュータデバイス1100は、独立したデバイス(例えば、サーバ、ノード、端末等のうちの1つ又は複数)を含んでもよいし、独立したデバイス内部の部材(例えば、チップ、ソフトウェアモジュール又はハードウェアモジュール等)を含んでもよい。当該コンピュータデバイス1100は、少なくとも1つのプロセッサ1101及び通信インターフェース1102を含むことができ、さらに選択可能に、コンピュータデバイス1100はさらに、少なくとも1つのメモリ1103及びバス1104を含むことができる。プロセッサ1101、通信インターフェース1102及びメモリ1103はバス1104を介して接続される。
【0119】
プロセッサ1101は、算術演算及び/又は論理演算を行うモジュールであり、具体的には、中央処理ユニット(central processing unit、CPU)、グラフィックス処理ユニット(graphics processing unit、GPU)、マイクロプロセッサー(microprocessor unit、MPU)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)、複合プログラマブルロジックデバイス(Complex programmable logic device、CPLD)、コプロセッサ(中央処理ユニットが相応する処理及びアプリケーションを完了するのを支援する)、マイクロコントロールユニット(Microcontroller Unit、MCU)等の処理モジュールのうちの1種又は多種の組み合わせであってもよい。
【0120】
通信インターフェース1102は、少なくとも1つのプロセッサのために情報の入力又は出力を提供するために用いられてもよい。及び/又は、通信インターフェース1102は、外部から送信されたデータを受信し、及び/又は外部にデータを送信するために用いられてもよく、イーサネットケーブル等のようなものを含む有線リンクインターフェースであってもよいし、無線リンク(Wi-Fi、ブルートゥース、汎用無線伝送、車載近距離通信技術及び他の近距離無線通信技術等)インターフェースであってもよい。
【0121】
メモリ1103は、記憶空間を提供するために用いられ、記憶空間には、操作システム及びコンピュータプログラム等のデータが記憶されてもよい。メモリ1103は、ランダムアクセスメモリ(random access memory、RAM)、読み取り専用メモリ(read-only memory、ROM)、消去可能なプログラマブルリードオンリーメモリ(erasable programmable read only memory、EPROM)、又はポータブルコンパクトディスクリードオンリーメモリ(compact disc read-only memory、CD-ROM)等のうちの1種又は多種の組み合わせであってもよい。
【0122】
上記のクロスモーダル検索方法、例えば、上記
図2、
図3及び
図7に示す実施例に記述されたクロスモーダル検索方法を実行するために、当該コンピュータデバイス1100の少なくとも1つのプロセッサ1101は、少なくとも1つのメモリ1103に記憶されたコンピュータプログラムを呼び出すために用いられる。
【0123】
本願の実施例に記述されたコンピュータデバイス1100は、前文に対応する実施例の当該クロスモーダル検索方法に対する記述を実行してもよいし、前文の
図9に対応する実施例の当該クロスモーダル検索装置900に対する記述、又は
図10に対応する実施例の当該クロスモーダル検索装置1000に対する記述を実行してもよく、ここでは贅言しない。また、同じ方法を採用する有益な効果の記述に対しても、さらに贅言しない。
【0124】
なお、本願の1つの例示的な実施例はさらに、記憶媒体を提供し、当該記憶媒体には、上記クロスモーダル検索方法のコンピュータプログラムが記憶されており、当該コンピュータプログラムはプログラム命令を含み、1つ又は複数のプロセッサが当該プログラム命令をロードして実行する場合、実施例のクロスモーダル検索方法に対する記述を実現でき、ここでは贅言しなく、同じ方法を採用する有益な効果の記述に対しても、ここでは贅言しない。なお、プログラム命令は、1つ、又は相互に通信可能な複数のコンピュータデバイスに配置されて実行されてもよい。
【0125】
上記コンピュータ可読記憶媒体は、上記いずれかの実施例が提供するクロスモーダル検索装置又は上記コンピュータデバイスの内部記憶ユニット、例えば、コンピュータデバイスのハードディスク又は内部メモリであってもよい。当該コンピュータ可読記憶媒体は、当該コンピュータデバイスの外部記憶デバイス、例えば、当該コンピュータデバイスに搭載されたプラグインハードディスク、スマートメディアカード(smart media card、SMC)、セキュアデジタル(secure digital、SD)カード、フラッシュカード(flash card)等であってもよい。さらには、当該コンピュータ可読記憶媒体はさらに、当該コンピュータデバイスの内部記憶ユニットを含むとともに、外部記憶デバイスも含むことができる。当該コンピュータ可読記憶媒体は、当該コンピュータプログラム及び当該コンピュータデバイスに必要な他のプログラム、データを記憶するために用いられる。当該コンピュータ可読記憶媒体はさらに、既に出力された、又は出力される予定のあるデータを一時的に記憶するために用いられてもよい。
【0126】
本願の1つの態様は、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ可読記憶媒体に記憶されるコンピュータ命令を含む。コンピュータデバイスのプロセッサは、コンピュータ可読記憶媒体から当該コンピュータ命令を読み取り、プロセッサは当該コンピュータ命令を実行することにより、本願の実施例における一態様が提供する方法を当該コンピュータデバイスに実行させる。
【0127】
本願の1つの態様は、別のコンピュータプログラム製品を提供し、当該コンピュータプログラム製品は、コンピュータプログラム又はコンピュータ命令を含み、当該コンピュータプログラム又はコンピュータ命令はプロセッサによって実行される場合、本願の実施例が提供するクロスモーダル検索方法のステップを実現する。
【0128】
以上の開示内容は、本願の好ましい実施例にすぎず、当然に本願の権利範囲をこれにより限定することができず、よって、本願の請求項に応じて行われる均等な変化はいずれも、本願に含まれる範囲に属する。
【符号の説明】
【0129】
101 データベース
102 クロスモーダル検索デバイス
810 セッションインターフェース
811 履歴セッション記録検索インターフェース
812 セッション記録詳細インターフェース
823 検索結果インターフェース
900 クロスモーダル検索装置
901 取得モジュール
902 検索モジュール
903 マージモジュール
904 トレーニングモジュール
1000 クロスモーダル検索装置
1001 表示モジュール
1002 出力モジュール
1100 コンピュータデバイス
1101 プロセッサ
1102 通信インターフェース
1103 メモリ
1104 バス
8120 検索ボックス
8220 検索ボックス
【手続補正書】
【提出日】2024-05-30
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータデバイスによって実行されるクロスモーダル検索方法であって、
第1モーダルデータを取得するステップと、
前記第1モーダルデータの内容情報に基づいて第2モーダルデータベースで検索し、第1集合を取得するステップであって、前記第1集合には、前記第1モーダルデータの内容情報にマッチングする少なくとも1つの第2モーダルデータが含まれる、ステップと、
前記第1モーダルデータのセマンティック情報に基づいて前記第2モーダルデータベースで検索し、第2集合を取得するステップであって、前記第2集合には、前記第1モーダルデータのセマンティック情報にマッチングする少なくとも1つの第2モーダルデータが含まれる、ステップと、
前記第1集合と前記第2集合とをマージし、前記第1モーダルデータに対応するクロスモーダル検索結果を取得するステップと、を含む、
ことを特徴とする方法。
【請求項2】
前記第2モーダルデータベースにはN個の第2モーダルデータ、及び前記N個の第2モーダルデータの各自の属性情報が記憶されており、Nは正の整数であり
、
前記第1モーダルデータの内容情報に基づいて第2モーダルデータベースで検索し、第1集合を取得する前記ステップは、
前記N個の第2モーダルデータのうちの各第2モーダルデータについて、前記第1モーダルデータの内容情報と前記第2モーダルデータの属性情報との間のマッチング度を、前記第2モーダルデータに対応するマッチング度として決定するステップと、
対応するマッチング度がマッチング条件を満たす第2モーダルデータを前記第1集合に追加するステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記属性情報は第1モーダル記述情報を含み、前記N個の第2モーダルデータのうちのいずれか1つは、第i個の第2モーダルデータとして示し、iは正の整数であり、かつiはN以下であり、
前記N個の第2モーダルデータのうちの各第2モーダルデータについて、前記第1モーダルデータの内容情報と前記第2モーダルデータの属性情報との間のマッチング度を、前記第2モーダルデータに対応するマッチング度として決定する前記ステップは、
前記第1モーダルデータの内容情報と前記第i個の第2モーダルデータの第1モーダル記述情報との間のセマンティック類似度を、前記第i個の第2モーダルデータに対応するマッチング度として決定するステップを含み、
対応するマッチング度がマッチング条件を満たす第2モーダルデータを前記第1集合に追加する前記ステップは、
前記第1モーダルデータの内容情報と前記第i個の第2モーダルデータの第1モーダル記述情報との間のセマンティック類似度が第1類似閾値よりも大きいと、前記第i個の第2モーダルデータを前記第1集合に追加するステップを含む、
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記属性情報はカテゴリラベルを含み、前記N個の第2モーダルデータのうちのいずれか1つは、第i個の第2モーダルデータとして示し、iは正の整数であり、かつiはN以下であり、
前記N個の第2モーダルデータのうちの各第2モーダルデータについて、前記第1モーダルデータの内容情報と前記第2モーダルデータの属性情報との間のマッチング度を、前記第2モーダルデータに対応するマッチング度として決定する前記ステップは、
前記第1モーダルデータの内容情報と前記第i個の第2モーダルデータのカテゴリラベルとの間の類似度を、前記第i個の第2モーダルデータに対応するマッチング度として決定するステップを含み、
対応するマッチング度がマッチング条件を満たす第2モーダルデータを前記第1集合に追加する前記ステップは、
前記第1モーダルデータの内容情報と前記第i個の第2モーダルデータのカテゴリラベルとの間の類似度が第2類似閾値よりも大きいと、前記第i個の第2モーダルデータを前記第1集合に追加するステップを含む、
ことを特徴とする請求項2に記載の方法。
【請求項5】
前記第2モーダルデータベースにはN個の第2モーダルデータが記憶されており、前記第2モーダルデータベースは、前記N個の第2モーダルデータの各自のセマンティック特徴が記憶されている第2モーダル特徴ライブラリと関連付けられており、
前記第1モーダルデータのセマンティック情報に基づいて前記第2モーダルデータベースで検索し、第2集合を取得する前記ステップは、
前記第1モーダルデータのセマンティック特徴を取得するステップと、
前記第1モーダルデータのセマンティック特徴に基づいて、前記第1モーダルデータのセマンティック特徴にマッチングするターゲットセマンティック特徴を前記第2モーダル特徴ライブラリで探すステップと、
前記ターゲットセマンティック特徴に応じて、前記第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを前記第2モーダルデータベースで決定するステップと、
前記第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを前記第2集合に追加するステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項6】
前記第2モーダル特徴ライブラリと前記第2モーダルデータベースとは、特徴インデックスによって関連付けられ、
前記ターゲットセマンティック特徴に応じて、前記第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを前記第2モーダルデータベースで決定する前記ステップは、
前記ターゲットセマンティック特徴の特徴インデックスを決定するステップと、
前記ターゲットセマンティック特徴の特徴インデックスに基づいて、前記ターゲットセマンティック特徴の特徴インデックスに対応する第2モーダルデータを前記第2モーダルデータベースで決定するステップと、を含む、
ことを特徴とする請求項5に記載の方法。
【請求項7】
前記第2モーダル特徴ライブラリに記憶された前記N個の第2モーダルデータの各自のセマンティック特徴は、クロスモーダル検索モデルにおける第2モーダル処理ネットワークを通じて前記N個の第2モーダルデータに対してそれぞれ特徴抽出処理を行って得られたものであり、前記クロスモーダル検索モデルはさらに、第1モーダル処理ネットワークを含み、
前記第1モーダルデータのセマンティック特徴を取得する前記ステップは、
前記クロスモーダル検索モデルにおける前記第1モーダル処理ネットワークを通じて、前記第1モーダルデータに対して特徴抽出処理を行い、前記第1モーダルデータのセマンティック特徴を取得するステップを含む、
ことを特徴とする請求項5に記載の方法。
【請求項8】
前記第2モーダル処理ネットワークは、特徴抽出ネットワーク、プーリング処理ネットワーク、及び特徴統合ネットワークを含み、前記N個の第2モーダルデータのうちのいずれか1つは、第i個の第2モーダルデータとして示し、iは正の整数であり、かつiはN以下であり、
前記クロスモーダル検索モデルにおける第2モーダル処理ネットワークを通じて前記N個の第2モーダルデータに対してそれぞれ特徴抽出処理を行い、前記N個の第2モーダルデータの各自のセマンティック特徴を取得するステップは、
前記第2モーダル処理ネットワークにおける前記特徴抽出ネットワークを通じて、前記第i個の第2モーダルデータの初期特徴を抽出するステップと、
前記第2モーダル処理ネットワークにおける前記プーリング処理ネットワークを通じて、前記初期特徴に対してプーリング処理を行い、前記第i個の第2モーダルデータのプーリング特徴を取得するステップと、
前記特徴統合ネットワークを通じて、前記プーリング特徴に対して統合処理を行い、前記第i個の第2モーダルデータのセマンティック特徴を取得するステップと、を含む、
ことを特徴とする請求項7に記載の方法。
【請求項9】
前記第2モーダル処理ネットワークはさらに、分類ネットワークを含み、前記方法はさらに、
前記分類ネットワークを通じて、前記プーリング特徴に基づいて分類予測処理を行い、前記第i個の第2モーダルデータのカテゴリラベルを取得するステップと、
前記第i個の第2モーダルデータのカテゴリラベルを前記第2モーダルデータベースに追加するステップと、を含む、
ことを特徴とする請求項8に記載の方法。
【請求項10】
前記方法はさらに、
クロスモーダルトレーニングデータセットを取得するステップであって、前記クロスモーダルトレーニングデータセットは、複数組のクロスモーダルサンプルデータを含み、各組の前記クロスモーダルサンプルデータは、第2モーダルサンプルデータ、第1モーダルサンプルデータ、及び前記第2モーダルサンプルデータと前記第1モーダルサンプルデータとの間のマッチング結果を含むステップと、
前記クロスモーダル検索モデルにおける第1モーダル処理ネットワークを通じて、前記クロスモーダルサンプルデータのうちの第1モーダルサンプルデータに対して特徴抽出処理を行い、前記第1モーダルサンプルデータのセマンティック特徴を取得し、前記クロスモーダル検索モデルにおける第2モーダル処理ネットワークを通じて、前記クロスモーダルサンプルデータのうちの第2モーダルサンプルデータに対して特徴抽出処理を行い、前記第2モーダルサンプルデータのセマンティック特徴を取得するステップと、
前記第1モーダルサンプルデータのセマンティック特徴と前記第2モーダルサンプルデータのセマンティック特徴との間のクロスモーダルコントラスト損失に応じて、前記クロスモーダル検索モデルに対して反復トレーニングを行い、トレーニングされたクロスモーダル検索モデルを取得するステップと、を含む、
ことを特徴とする請求項7に記載の方法。
【請求項11】
コンピュータデバイスによって実行されるクロスモーダル検索方法であって、
ソーシャルセッションのセッションインターフェースを表示するステップと、
前記ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示するステップであって、前記セッション記録詳細インターフェースには、前記ソーシャルセッションの履歴セッション記録における第2モーダルデータが含まれるステップと、
前記セッション記録詳細インターフェースに入力された第1モーダルデータに応答して、前記第1モーダルデータに対応するクロスモーダル検索結果を出力するステップであって、前記クロスモーダル検索結果は、請求項1~10のいずれか1項に記載のクロスモーダル検索方法を採用して得られたものであるステップと、を含む、
ことを特徴とする方法。
【請求項12】
前記ソーシャルセッションの履歴セッション記録における第2モーダルデータは、第2モーダルデータベースに記憶され、かつ前記第2モーダルデータベースには前記第2モーダルデータの属性情報が記憶されており、前記属性情報は、カテゴリラベルと、前記第2モーダルデータに関連付けられた第1モーダル記述情報と、前記第2モーダルデータから認識された第1モーダル記述情報と、の少なくとも1つを含む、
ことを特徴とする請求項11に記載の方法。
【請求項13】
前記第1モーダルデータはテキストであり、前記第2モーダルデータは画像であり、前記セッション記録詳細インターフェースには検索ボックスが含まれ、前記第1モーダルデータは、前記検索ボックスに入力して得られたものであり、又は、
前記セッション記録詳細インターフェースにはさらに、少なくとも1つの推薦テキストが含まれ、前記第1モーダルデータは、前記少なくとも1つの推薦テキストから選択することによって得られたものである、
ことを特徴とする請求項11に記載の方法。
【請求項14】
前記方法はさらに、
第1検索規則に対する選択に応答して、前記クロスモーダル検索結果のうち、前記第1モーダルデータの内容情報にマッチングする第2モーダルデータを出力するステップ、又は、
第2検索規則に対する選択に応答して、前記クロスモーダル検索結果のうち、前記第1モーダルデータのセマンティック情報にマッチングする第2モーダルデータを出力するステップを含む、
ことを特徴とする請求項11に記載の方法。
【請求項15】
クロスモーダル検索装置であって、
第1モーダルデータを取得するための取得モジュールと、
前記第1モーダルデータの内容情報に基づいて第2モーダルデータベースで検索し、第1集合を取得するための検索モジュールであって、前記第1集合には、前記第1モーダルデータの内容情報にマッチングする少なくとも1つの第2モーダルデータが含まれる検索モジュールと、を含み、
前記検索モジュールはさらに、前記第1モーダルデータのセマンティック情報に基づいて前記第2モーダルデータベースで検索し、第2集合を取得するために用いられ、前記第2集合には、前記第1モーダルデータのセマンティック情報にマッチングする少なくとも1つの第2モーダルデータが含まれ、
前記第1集合と前記第2集合とをマージし、前記第1モーダルデータに対応するクロスモーダル検索結果を取得するためのマージモジュールを含む、
ことを特徴とする装置。
【請求項16】
クロスモーダル検索装置であって、
ソーシャルセッションのセッションインターフェースを表示するための表示モジュールを含み、
前記表示モジュールはさらに、前記ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示するために用いられ、前記セッション記録詳細インターフェースには、前記ソーシャルセッションの履歴セッション記録における第2モーダルデータが含まれ、
前記セッション記録詳細インターフェースに入力された第1モーダルデータに応答して、前記第1モーダルデータに対応するクロスモーダル検索結果を出力するための出力モジュールであって、前記クロスモーダル検索結果は、請求項1~10のいずれか1項に記載のクロスモーダル検索方法を採用して得られたものである出力モジュールを含む、
ことを特徴とする装置。
【請求項17】
コンピュータデバイスであって、プロセッサと、メモリと、ネットワークインターフェースと、を含み、
前記プロセッサは前記メモリ、前記ネットワークインターフェースに接続され、前記ネットワークインターフェースはネットワーク通信機能を提供するために用いられ、前記メモリはプログラムコードを記憶するために用いられ、前記プロセッサは前記プログラムコードを呼び出して、請求項1~14のいずれか1項に記載のクロスモーダル検索方法を実行するために用いられる、
ことを特徴とするコンピュータデバイス。
【請求項18】
コンピュータプログラムであって、前記
コンピュータプログラムは、コンピュータプログラム又はコンピュータ命令を含み、前記コンピュータプログラム又はコンピュータ命令はプロセッサによって実行される場合、請求項1~14のいずれか1項に記載のクロスモーダル検索方法のステップを実現する、
ことを特徴とする
コンピュータプログラム。
【国際調査報告】