特表2024-541145 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技（深▲セン▼）有限公司の特許一覧

特表2024-541145クロスモーダル検索方法、クロスモーダル検索装置、コンピュータデバイス、及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4a
4b
5
6
7
8a
8b
8c
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-07

(54)【発明の名称】クロスモーダル検索方法、クロスモーダル検索装置、コンピュータデバイス、及びコンピュータプログラム

(51)【国際特許分類】

G06F 16/9032 20190101AFI20241030BHJP

【ＦＩ】

G06F16/9032

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024532539

(86)(22)【出願日】2022-11-29

(85)【翻訳文提出日】2024-05-30

(86)【国際出願番号】 CN2022134918

(87)【国際公開番号】W WO2023168997

(87)【国際公開日】2023-09-14

(31)【優先権主張番号】202210222089.0

(32)【優先日】2022-03-07

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ブルートゥース

２．イーサネット

(71)【出願人】

【識別番号】517392436

【氏名又は名称】▲騰▼▲訊▼科技（深▲セン▼）有限公司

【氏名又は名称原語表記】ＴＥＮＣＥＮＴＴＥＣＨＮＯＬＯＧＹ（ＳＨＥＮＺＨＥＮ）ＣＯＭＰＡＮＹＬＩＭＩＴＥＤ

【住所又は居所原語表記】３５／Ｆ，ＴｅｎｃｅｎｔＢｕｉｌｄｉｎｇ，ＫｅｊｉｚｈｏｎｇｙｉＲｏａｄ，ＭｉｄｗｅｓｔＤｉｓｔｒｉｃｔｏｆＨｉ－ｔｅｃｈＰａｒｋ，ＮａｎｓｈａｎＤｉｓｔｒｉｃｔ，Ｓｈｅｎｚｈｅｎ，Ｇｕａｎｇｄｏｎｇ５１８０５７，ＣＨＩＮＡ

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100150197

【弁理士】

【氏名又は名称】松尾直樹

(72)【発明者】

【氏名】▲梅▼ 柯

(72)【発明者】

【氏名】▲鄭▼ ▲還▼

(72)【発明者】

【氏名】李明

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA10

5B175HA05

(57)【要約】

本願の実施例は、クロスモーダル検索方法及び関連デバイスを開示し、当該クロスモーダル検索方法は、第１モーダルデータを取得するステップと、第１モーダルデータの内容情報に基づいて第２モーダルデータベースで検索し、第１集合を取得するステップであって、当該第１集合には、第１モーダルデータの内容情報にマッチングする少なくとも１つの第２モーダルデータが含まれるステップと、第１モーダルデータのセマンティック情報に基づいて第２モーダルデータベースで検索し、第２集合を取得するステップであって、当該第２集合には、第１モーダルデータのセマンティック情報にマッチングする少なくとも１つの第２モーダルデータが含まれるステップと、第１集合と第２集合とをマージし、第１モーダルデータに対応するクロスモーダル検索結果を取得するステップと、を含む。本願の実施例により、クロスモーダル検索の効率、及びクロスモーダル検索結果の多様性、全面性をアップできる。

【特許請求の範囲】

【請求項1】

コンピュータデバイスによって実行されるクロスモーダル検索方法であって、
第１モーダルデータを取得するステップと、
前記第１モーダルデータの内容情報に基づいて第２モーダルデータベースで検索し、第１集合を取得するステップであって、前記第１集合には、前記第１モーダルデータの内容情報にマッチングする少なくとも１つの第２モーダルデータが含まれる、ステップと、
前記第１モーダルデータのセマンティック情報に基づいて前記第２モーダルデータベースで検索し、第２集合を取得するステップであって、前記第２集合には、前記第１モーダルデータのセマンティック情報にマッチングする少なくとも１つの第２モーダルデータが含まれる、ステップと、
前記第１集合と前記第２集合とをマージし、前記第１モーダルデータに対応するクロスモーダル検索結果を取得するステップと、を含む、
ことを特徴とする方法。

【請求項2】

前記第２モーダルデータベースにはＮ個の第２モーダルデータ、及び前記Ｎ個の第２モーダルデータの各自の属性情報が記憶されており、Ｎは正の整数であり、前記第１モーダルデータの内容情報に基づいて第２モーダルデータベースで検索し、第１集合を取得する前記ステップは、
前記Ｎ個の第２モーダルデータのうちの各第２モーダルデータについて、前記第１モーダルデータの内容情報と前記第２モーダルデータの属性情報との間のマッチング度を、前記第２モーダルデータに対応するマッチング度として決定するステップと、
対応するマッチング度がマッチング条件を満たす第２モーダルデータを前記第１集合に追加するステップと、を含む、
ことを特徴とする請求項１に記載の方法。

【請求項3】

前記属性情報は第１モーダル記述情報を含み、前記Ｎ個の第２モーダルデータのうちのいずれか１つは、第ｉ個の第２モーダルデータとして示し、ｉは正の整数であり、かつｉはＮ以下であり、
前記Ｎ個の第２モーダルデータのうちの各第２モーダルデータについて、前記第１モーダルデータの内容情報と前記第２モーダルデータの属性情報との間のマッチング度を、前記第２モーダルデータに対応するマッチング度として決定する前記ステップは、
前記第１モーダルデータの内容情報と前記第ｉ個の第２モーダルデータの第１モーダル記述情報との間のセマンティック類似度を、前記第ｉ個の第２モーダルデータに対応するマッチング度として決定するステップを含み、
対応するマッチング度がマッチング条件を満たす第２モーダルデータを前記第１集合に追加する前記ステップは、
前記第１モーダルデータの内容情報と前記第ｉ個の第２モーダルデータの第１モーダル記述情報との間のセマンティック類似度が第１類似閾値よりも大きいと、前記第ｉ個の第２モーダルデータを前記第１集合に追加するステップを含む、
ことを特徴とする請求項２に記載の方法。

【請求項4】

前記属性情報はカテゴリラベルを含み、前記Ｎ個の第２モーダルデータのうちのいずれか１つは、第ｉ個の第２モーダルデータとして示し、ｉは正の整数であり、かつｉはＮ以下であり、
前記Ｎ個の第２モーダルデータのうちの各第２モーダルデータについて、前記第１モーダルデータの内容情報と前記第２モーダルデータの属性情報との間のマッチング度を、前記第２モーダルデータに対応するマッチング度として決定する前記ステップは、
前記第１モーダルデータの内容情報と前記第ｉ個の第２モーダルデータのカテゴリラベルとの間の類似度を、前記第ｉ個の第２モーダルデータに対応するマッチング度として決定するステップを含み、
対応するマッチング度がマッチング条件を満たす第２モーダルデータを前記第１集合に追加する前記ステップは、
前記第１モーダルデータの内容情報と前記第ｉ個の第２モーダルデータのカテゴリラベルとの間の類似度が第２類似閾値よりも大きいと、前記第ｉ個の第２モーダルデータを前記第１集合に追加するステップを含む、
ことを特徴とする請求項２に記載の方法。

【請求項5】

前記第２モーダルデータベースにはＮ個の第２モーダルデータが記憶されており、前記第２モーダルデータベースは、前記Ｎ個の第２モーダルデータの各自のセマンティック特徴が記憶されている第２モーダル特徴ライブラリと関連付けられており、
前記第１モーダルデータのセマンティック情報に基づいて前記第２モーダルデータベースで検索し、第２集合を取得する前記ステップは、
前記第１モーダルデータのセマンティック特徴を取得するステップと、
前記第１モーダルデータのセマンティック特徴に基づいて、前記第１モーダルデータのセマンティック特徴にマッチングするターゲットセマンティック特徴を前記第２モーダル特徴ライブラリで探すステップと、
前記ターゲットセマンティック特徴に応じて、前記第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを前記第２モーダルデータベースで決定するステップと、
前記第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを前記第２集合に追加するステップと、を含む、
ことを特徴とする請求項１に記載の方法。

【請求項6】

前記第２モーダル特徴ライブラリと前記第２モーダルデータベースとは、特徴インデックスによって関連付けられ、
前記ターゲットセマンティック特徴に応じて、前記第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを前記第２モーダルデータベースで決定する前記ステップは、
前記ターゲットセマンティック特徴の特徴インデックスを決定するステップと、
前記ターゲットセマンティック特徴の特徴インデックスに基づいて、前記ターゲットセマンティック特徴の特徴インデックスに対応する第２モーダルデータを前記第２モーダルデータベースで決定するステップと、を含む、
ことを特徴とする請求項５に記載の方法。

【請求項7】

前記第２モーダル特徴ライブラリに記憶された前記Ｎ個の第２モーダルデータの各自のセマンティック特徴は、クロスモーダル検索モデルにおける第２モーダル処理ネットワークを通じて前記Ｎ個の第２モーダルデータに対してそれぞれ特徴抽出処理を行って得られたものであり、前記クロスモーダル検索モデルはさらに、第１モーダル処理ネットワークを含み、
前記第１モーダルデータのセマンティック特徴を取得する前記ステップは、
前記クロスモーダル検索モデルにおける前記第１モーダル処理ネットワークを通じて、前記第１モーダルデータに対して特徴抽出処理を行い、前記第１モーダルデータのセマンティック特徴を取得するステップを含む、
ことを特徴とする請求項５に記載の方法。

【請求項8】

前記第２モーダル処理ネットワークは、特徴抽出ネットワーク、プーリング処理ネットワーク、及び特徴統合ネットワークを含み、前記Ｎ個の第２モーダルデータのうちのいずれか１つは、第ｉ個の第２モーダルデータとして示し、ｉは正の整数であり、かつｉはＮ以下であり、
前記クロスモーダル検索モデルにおける第２モーダル処理ネットワークを通じて前記Ｎ個の第２モーダルデータに対してそれぞれ特徴抽出処理を行い、前記Ｎ個の第２モーダルデータの各自のセマンティック特徴を取得するステップは、
前記第２モーダル処理ネットワークにおける前記特徴抽出ネットワークを通じて、前記第ｉ個の第２モーダルデータの初期特徴を抽出するステップと、
前記第２モーダル処理ネットワークにおける前記プーリング処理ネットワークを通じて、前記初期特徴に対してプーリング処理を行い、前記第ｉ個の第２モーダルデータのプーリング特徴を取得するステップと、
前記特徴統合ネットワークを通じて、前記プーリング特徴に対して統合処理を行い、前記第ｉ個の第２モーダルデータのセマンティック特徴を取得するステップと、を含む、
ことを特徴とする請求項７に記載の方法。

【請求項9】

前記第２モーダル処理ネットワークはさらに、分類ネットワークを含み、前記方法はさらに、
前記分類ネットワークを通じて、前記プーリング特徴に基づいて分類予測処理を行い、前記第ｉ個の第２モーダルデータのカテゴリラベルを取得するステップと、
前記第ｉ個の第２モーダルデータのカテゴリラベルを前記第２モーダルデータベースに追加するステップと、を含む、
ことを特徴とする請求項８に記載の方法。

【請求項10】

前記方法はさらに、
クロスモーダルトレーニングデータセットを取得するステップであって、前記クロスモーダルトレーニングデータセットは、複数組のクロスモーダルサンプルデータを含み、各組の前記クロスモーダルサンプルデータは、第２モーダルサンプルデータ、第１モーダルサンプルデータ、及び前記第２モーダルサンプルデータと前記第１モーダルサンプルデータとの間のマッチング結果を含むステップと、
前記クロスモーダル検索モデルにおける第１モーダル処理ネットワークを通じて、前記クロスモーダルサンプルデータのうちの第１モーダルサンプルデータに対して特徴抽出処理を行い、前記第１モーダルサンプルデータのセマンティック特徴を取得し、前記クロスモーダル検索モデルにおける第２モーダル処理ネットワークを通じて、前記クロスモーダルサンプルデータのうちの第２モーダルサンプルデータに対して特徴抽出処理を行い、前記第２モーダルサンプルデータのセマンティック特徴を取得するステップと、
前記第１モーダルサンプルデータのセマンティック特徴と前記第２モーダルサンプルデータのセマンティック特徴との間のクロスモーダルコントラスト損失に応じて、前記クロスモーダル検索モデルに対して反復トレーニングを行い、トレーニングされたクロスモーダル検索モデルを取得するステップと、を含む、
ことを特徴とする請求項７に記載の方法。

【請求項11】

コンピュータデバイスによって実行されるクロスモーダル検索方法であって、
ソーシャルセッションのセッションインターフェースを表示するステップと、
前記ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示するステップであって、前記セッション記録詳細インターフェースには、前記ソーシャルセッションの履歴セッション記録における第２モーダルデータが含まれるステップと、
前記セッション記録詳細インターフェースに入力された第１モーダルデータに応答して、前記第１モーダルデータに対応するクロスモーダル検索結果を出力するステップであって、前記クロスモーダル検索結果は、請求項１～１０のいずれか１項に記載のクロスモーダル検索方法を採用して得られたものであるステップと、を含む、
ことを特徴とする方法。

【請求項12】

前記ソーシャルセッションの履歴セッション記録における第２モーダルデータは、第２モーダルデータベースに記憶され、かつ前記第２モーダルデータベースには前記第２モーダルデータの属性情報が記憶されており、前記属性情報は、カテゴリラベルと、前記第２モーダルデータに関連付けられた第１モーダル記述情報と、前記第２モーダルデータから認識された第１モーダル記述情報と、の少なくとも１つを含む、
ことを特徴とする請求項１１に記載の方法。

【請求項13】

前記第１モーダルデータはテキストであり、前記第２モーダルデータは画像であり、前記セッション記録詳細インターフェースには検索ボックスが含まれ、前記第１モーダルデータは、前記検索ボックスに入力して得られたものであり、又は、
前記セッション記録詳細インターフェースにはさらに、少なくとも１つの推薦テキストが含まれ、前記第１モーダルデータは、前記少なくとも１つの推薦テキストから選択することによって得られたものである、
ことを特徴とする請求項１１に記載の方法。

【請求項14】

前記方法はさらに、
第１検索規則に対する選択に応答して、前記クロスモーダル検索結果のうち、前記第１モーダルデータの内容情報にマッチングする第２モーダルデータを出力するステップ、又は、
第２検索規則に対する選択に応答して、前記クロスモーダル検索結果のうち、前記第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを出力するステップを含む、
ことを特徴とする請求項１１に記載の方法。

【請求項15】

クロスモーダル検索装置であって、
第１モーダルデータを取得するための取得モジュールと、
前記第１モーダルデータの内容情報に基づいて第２モーダルデータベースで検索し、第１集合を取得するための検索モジュールであって、前記第１集合には、前記第１モーダルデータの内容情報にマッチングする少なくとも１つの第２モーダルデータが含まれる検索モジュールと、を含み、
前記検索モジュールはさらに、前記第１モーダルデータのセマンティック情報に基づいて前記第２モーダルデータベースで検索し、第２集合を取得するために用いられ、前記第２集合には、前記第１モーダルデータのセマンティック情報にマッチングする少なくとも１つの第２モーダルデータが含まれ、
前記第１集合と前記第２集合とをマージし、前記第１モーダルデータに対応するクロスモーダル検索結果を取得するためのマージモジュールを含む、
ことを特徴とする装置。

【請求項16】

クロスモーダル検索装置であって、
ソーシャルセッションのセッションインターフェースを表示するための表示モジュールを含み、
前記表示モジュールはさらに、前記ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示するために用いられ、前記セッション記録詳細インターフェースには、前記ソーシャルセッションの履歴セッション記録における第２モーダルデータが含まれ、
前記セッション記録詳細インターフェースに入力された第１モーダルデータに応答して、前記第１モーダルデータに対応するクロスモーダル検索結果を出力するための出力モジュールであって、前記クロスモーダル検索結果は、請求項１～１０のいずれか１項に記載のクロスモーダル検索方法を採用して得られたものである出力モジュールを含む、
ことを特徴とする装置。

【請求項17】

コンピュータデバイスであって、プロセッサと、メモリと、ネットワークインターフェースと、を含み、
前記プロセッサは前記メモリ、前記ネットワークインターフェースに接続され、前記ネットワークインターフェースはネットワーク通信機能を提供するために用いられ、前記メモリはプログラムコードを記憶するために用いられ、前記プロセッサは前記プログラムコードを呼び出して、請求項１～１４のいずれか１項に記載のクロスモーダル検索方法を実行するために用いられる、
ことを特徴とするコンピュータデバイス。

【請求項18】

コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムはプログラム命令を含み、前記プログラム命令はプロセッサによって実行される場合、請求項１～１４のいずれか１項に記載のクロスモーダル検索方法を実行する、
ことを特徴とするコンピュータ可読記憶媒体。

【請求項19】

コンピュータプログラム製品であって、前記コンピュータプログラム製品は、コンピュータプログラム又はコンピュータ命令を含み、前記コンピュータプログラム又はコンピュータ命令はプロセッサによって実行される場合、請求項１～１４のいずれか１項に記載のクロスモーダル検索方法のステップを実現する、
ことを特徴とするコンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本願は、２０２２年０３月０７日に中国特許庁に提出された、出願番号が２０２２１０２２２０８９０であって、出願の名称が「クロスモーダル検索方法及び関連デバイス」である中国特許出願に基づく優先権を主張するものであり、その全内容を本願に参照により援用する。

【0002】

本願は、コンピュータという技術的分野に関し、特にクロスモーダル検索技術に関する。

【背景技術】

【0003】

インターネット技術の高速発展に伴い、コンピュータデバイスを介してデータを検索することは、生産生活及び仕事学習で人々にとって不可欠な機能となっている。実践により、現在の検索には一般的に、クロスモーダル検索をサポートしない、検索次元が単一である、検索効率が低い、検索結果が不完全である等の問題があることが発見された。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本願の実施例は、クロスモーダル検索の効率、及びクロスモーダル検索結果の多様性、全面性をアップできるクロスモーダル検索方法及び関連デバイスを提供する。

【課題を解決するための手段】

【0005】

本願の実施例の一態様は、コンピュータデバイスによって実行されるクロスモーダル検索方法を提供し、
第１モーダルデータを取得するステップと、
第１モーダルデータの内容情報に基づいて第２モーダルデータベースで検索し、第１集合を取得するステップであって、第１集合には、第１モーダルデータの内容情報にマッチングする少なくとも１つの第２モーダルデータが含まれるステップと、
第１モーダルデータのセマンティック情報に基づいて第２モーダルデータベースで検索し、第２集合を取得するステップであって、第２集合には、第１モーダルデータのセマンティック情報にマッチングする少なくとも１つの第２モーダルデータが含まれるステップと、
第１集合と第２集合とをマージし、第１モーダルデータに対応するクロスモーダル検索結果を取得するステップと、を含む。

【0006】

本願の実施例の一態様は、コンピュータデバイスによって実行される別のクロスモーダル検索方法を提供し、
ソーシャルセッションのセッションインターフェースを表示するステップと、
前記ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示するステップであって、前記セッション記録詳細インターフェースには、前記ソーシャルセッションの履歴セッション記録における第２モーダルデータが含まれるステップと、
前記セッション記録詳細インターフェースに入力された第１モーダルデータに応答して、前記第１モーダルデータに対応するクロスモーダル検索結果を出力するステップであって、前記クロスモーダル検索結果は、本願の実施例のクロスモーダル検索方法を採用して得られたものであるステップと、を含む。

【0007】

本願の実施例の一態様は、クロスモーダル検索装置を提供し、
第１モーダルデータを取得するための取得モジュールと、
第１モーダルデータの内容情報に基づいて第２モーダルデータベースで検索し、第１集合を取得するための検索モジュールであって、第１集合には、第１モーダルデータの内容情報にマッチングする少なくとも１つの第２モーダルデータが含まれる検索モジュールと、を含み、
検索モジュールはさらに、第１モーダルデータのセマンティック情報に基づいて第２モーダルデータベースで検索し、第２集合を取得するために用いられ、第２集合には、第１モーダルデータのセマンティック情報にマッチングする少なくとも１つの第２モーダルデータが含まれ、
第１集合と第２集合とをマージし、第１モーダルデータに対応するクロスモーダル検索結果を取得するためのマージモジュールを含む。

【0008】

本願の実施例の一態様は、別のクロスモーダル検索装置を提供し、
ソーシャルセッションのセッションインターフェースを表示するための表示モジュールを含み、
表示モジュールはさらに、ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示するために用いられ、セッション記録詳細インターフェースには、ソーシャルセッションの履歴セッション記録における第２モーダルデータが含まれ、
セッション記録詳細インターフェースに入力された第１モーダルデータに応答して、第１モーダルデータに対応するクロスモーダル検索結果を出力するための出力モジュールであって、クロスモーダル検索結果は、本願の実施例のクロスモーダル検索方法を採用して得られたものである出力モジュールを含む。

【0009】

本願の実施例の一態様は、コンピュータデバイスを提供し、プロセッサと、メモリと、ネットワークインターフェースと、を含み、プロセッサはメモリ、ネットワークインターフェースに接続され、ネットワークインターフェースはネットワーク通信機能を提供するために用いられ、メモリはプログラムコードを記憶するために用いられ、プロセッサはプログラムコードを呼び出すために用いられ、これにより、本願の実施例におけるクロスモーダル検索方法を実行する。

【0010】

本願の実施例の一態様は、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体にはコンピュータプログラムが記憶されており、コンピュータプログラムはプログラム命令を含み、プログラム命令はプロセッサによって実行される場合、本願の実施例におけるクロスモーダル検索方法を実行する。

【0011】

本願の実施例の一態様は、コンピュータプログラム製品を提供し、当該コンピュータプログラム製品は、コンピュータプログラム又はコンピュータ命令を含み、前記コンピュータプログラム又はコンピュータ命令はプロセッサによって実行される場合、本願の実施例における一態様が提供するクロスモーダル検索方法を実現する。

【0012】

本願の実施例では、第１モーダルデータの内容情報に基づいて、当該第１モーダルの内容情報にマッチングする第２モーダルデータを検索することができ、第１モーダルデータのセマンティック情報に基づいて、当該第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを検索することができ、このように、本願の実施例は、クロスモーダル検索をサポートするだけでなく、それぞれに内容、セマンティックとの２つの次元から総合的に検索することもサポートし、これにより、検索がカバーする次元は単一でなくなり、また、２つの次元で検索された第２モーダルデータをクロスモーダル検索結果としてマージし、１回の検索過程により、複数の次元の検索結果を得ることができ、クロスモーダル検索の検索効率をアップし、また、クロスモーダル検索結果が２つの次元の検索結果をマージすることで得られたため、クロスモーダル検索結果はより多様化し、より全面的である。

【図面の簡単な説明】

【0013】

【図1】本願の実施例が提供するクロスモーダル検索システムのアーキテクチャ図である。

【図2】本願の実施例が提供するクロスモーダル検索方法の第１の概略フローチャートである。

【図3】本願の実施例が提供するクロスモーダル検索方法の第２の概略フローチャートである。

【図4a】本願の実施例が提供するクロスモーダル検索モデルにおける第１モーダル処理ネットワークの構造概略図である。

【図4b】本願の実施例が提供するクロスモーダル検索モデルにおける第２モーダル処理ネットワークの構造概略図である。

【図5】本願の実施例が提供するクロスモーダル検索モデルのトレーニング概略図である。

【図6】本願の実施例が提供するクロスモーダル検索のアルゴリズム概略フローチャートである。

【図7】本願の実施例が提供するクロスモーダル検索方法の第３の概略フローチャートである。

【図8a】本願の実施例が提供する、履歴セッション記録に対するチェックの操作概略図である。

【図8b】本願の実施例が提供するクロスモーダル検索の操作概略図である。

【図8c】本願の実施例が提供する、クロスモーダル検索結果を出力する効果概略図である。

【図9】本願の実施例が提供するクロスモーダル検索装置の構造概略図である。

【図10】本願の実施例が提供する別のクロスモーダル検索装置の構造概略図である。

【図11】本願の実施例が提供するコンピュータデバイスの構造概略図である。

【発明を実施するための形態】

【0014】

以下、本願の実施例における図面を結合して本願の実施例における技術的手段を明瞭で完全に記述し、明らかに、記述する実施例は、すべての実施例ではなく、本願の実施例の一部に過ぎない。本願における実施例に基づいて、当業者が創造的な労働を費やすことがなくて得られるすべての他の実施例は、いずれも本願の保護範囲内に入るものとする。

【0015】

本願の実施例の手段をよりよく理解するために、以下、まず、本願の実施例に関する可能性のある関連用語及び概念を紹介する。

【0016】

チャットフォトウォール：アプリケーションプログラム（Ａｐｐｌｉｃａｔｉｏｎ、ＡＰＰ）における各チャット内で送受信される写真の全展示ページである。

【0017】

マルチモーダル学習：２種の異なるモーダルのデータを同じ特徴空間（例えば、セマンティック空間）にマッピングすることで、２種の異なるモーダルのデータがセマンティックに応じて関連付けられることを指し、類似するセマンティックを有するモーダルデータは、当該特徴空間で類似する特徴を備え、上記２種の異なるモーダルのデータは例えば、画像、テキストであってもよい。

【0018】

上記用語及び概念に基づいて、以下、図面を結合して本願の実施例が提供するクロスモーダル検索システムのアーキテクチャを紹介する。

【0019】

図１を参照すると、図１は本願の実施例が提供するクロスモーダル検索システムのアーキテクチャ概略図である。図１に示すように、当該アーキテクチャ図は、データベース１０１及びクロスモーダル検索デバイス１０２を含む。クロスモーダル検索デバイス１０２は、データベース１０１と有線又は無線の方式を通じて通信接続を確立することができ、データベース１０１は、クロスモーダル検索デバイス１０２のローカルデータベースであってもよいし、クロスモーダル検索デバイス１０２がアクセス可能なクラウドデータベースであってもよい。クロスモーダル検索デバイス１０２は具体的に、サーバ又は端末等のコンピュータデバイスであってもよい。

【0020】

本願の実施例では、サーバは、独立した物理サーバであってもよく、複数の物理サーバで構成されるサーバクラスタ又は分散型システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインネームサービス、セキュリティサービス、ＣＤＮ、及びビッグデータと人工知能プラットフォーム等の基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよく、ここでは制限しない。端末は、スマートフォン、タブレットコンピュータ、スマートウェアラブルデバイス、スマート音声インタラクティブデバイス、スマート家電、パソコン、車載端末等のデバイスであってもよく、ここでは制限しない。

【0021】

データベース１０１は、第２モーダルデータベース、及び当該第２モーダルデータベースに関連付けられた第２モーダル特徴ライブラリを含むことができ、第２モーダルデータベースは、第２モーダルデータ及び第２モーダルデータの属性情報を記憶するために用いられる。ここで、１つの実施形態では、第２モーダルデータの属性情報は、第２モーダルデータ自体に含まれる情報であってもよく、例えば、第２モーダルデータは画像であり、属性情報は画像中の文字であってもよい。別の実施形態では、第２モーダルデータの属性情報はさらに、第２モーダルデータに関連付けられた情報であってもよく、例えば、第２モーダルデータは画像であり、属性情報は、画像にアノテーションしたカテゴリラベルであってもよい。第２モーダル特徴ライブラリは、第２モーダルデータのセマンティック特徴を記憶するために用いられ、それに、各第２モーダルデータのセマンティック特徴にはいずれも、特徴インデックスが設けられており、当該特徴インデックスは、快速に第２モーダルデータベースから第２モーダルデータを検索するようにアシストすることができる。

【0022】

クロスモーダル検索デバイス１０２は、第１モーダルデータに応じて第２モーダルデータを検索し、さらに、クロスモーダル検索結果を生成し、具体的な過程は以下のとおりである。（１）第１モーダルデータを取得する。当該第１モーダルデータは、テキスト、音声、画像等のうちのいずれか１種であってもよい。（２）第１モーダルデータの内容情報及びセマンティック情報に基づいて、それぞれデータベース１０１（具体的には、第２モーダルデータベース）から内容情報にマッチングする第２モーダルデータ、及びセマンティック情報にマッチングする第２モーダルデータを検索する。ここで、内容情報とは、第１モーダルデータの自体に含まれる内容を指し、セマンティック情報とは、第１モーダルデータが表現する抽象的な意味を指す。例を挙げると、第１モーダルデータはテキストであり、内容情報は当該テキスト中のキャラクタであり、セマンティック情報は当該テキストの表現する意味である。第１モーダルデータが画像であると、内容情報は、画像に含まれる内容、例えば、文字であってもよく、セマンティック情報は、当該画像から抽出されたセマンティック特徴であってもよい。１つの実施例では、第１モーダルデータの内容情報に基づいて、直接に第２モーダルデータベースから当該内容情報にマッチングする第２モーダルデータを探すことができるが、第１モーダルデータのセマンティック情報に基くためには、第２モーダル特徴ライブラリを介する必要があり、第２モーダル特徴ライブラリで第１モーダルデータのセマンティック情報にマッチングする第２モーダル特徴を探し、さらに第２モーダル特徴に応じて、第２モーダルデータベースで対応する第２モーダルデータを決定し、当該セマンティック情報にマッチングする第２モーダルデータである。（３）これらの第２モーダルデータを、第１モーダルデータにマッチングするクロスモーダル検索結果としてマージする。

【0023】

クロスモーダル検索デバイス１０２はさらに、入力された第１モーダルデータに応じて、当該第１モーダルデータに対応するクロスモーダル検索結果を出力してもよい。具体的な過程は以下のステップを含む。（１）ソーシャルセッションのセッションインターフェースを表示するステップと、（２）ソーシャルセッションの履歴セッション記録に対するチェック操作に応答して、セッション記録詳細インターフェースを表示するステップであって、セッション記録詳細インターフェースには第２モーダルデータが表示されており、また第２モーダルデータはソーシャルセッションの履歴セッション記録に属するステップと、（３）セッション記録詳細インターフェースに入力された第１モーダルデータに応答して、第１モーダルデータに対応するクロスモーダル検索結果を出力するステップと、である。選択可能に、セッション記録詳細インターフェースは、セッションオブジェクトが手動で第１モーダルデータを入力するための検索ボックスを提供してもよいし、セッションオブジェクトが選択するための第１モーダルデータを推薦して、検索機能を迅速にトリガしてクロスモーダル検索を行うようにしてもよい。１つの実施例では、指定された検索規則に応じてクロスモーダル検索を行うようにしてもよく、例えば、入力されたテキストは、画像の記述に応じて検索されてもよいし、画像中の文字に応じて検索されてもよい。このように、展示されたクロスモーダル検索結果は検索次元に関連付けることができ、例えば、クロスモーダル検索結果における、第１モーダルデータの内容情報にマッチングする第２モーダルデータを出力し、又は、クロスモーダル検索結果における、第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを出力することができる。

【0024】

上記により分かるように、クロスモーダル検索システムは、以下のような２種のクロスモーダル検索手段をサポートし、１つは、技術面の汎用クロスモーダル検索であり、もう１つは、製品面の履歴セッション記録におけるクロスモーダル検索であり、後者は、クロスモーダル検索結果を出力し、かつクロスモーダル検索結果は、技術面のクロスモーダル検索手段を実施することで得られる。この２種の手段を支持するクロスモーダル検索デバイスは具体的に、同じコンピュータデバイスであってもよいし、異なるコンピュータデバイスであってもよく、この２種の手段を支持するクロスモーダル検索デバイスが異なるコンピュータデバイスである場合、仮にコンピュータデバイスＡ、コンピュータデバイスＢであれば、コンピュータデバイスＢにより、入力された第１モーダルデータを受信するとともに、当該第１モーダルデータをコンピュータデバイスＡに送信し、コンピュータデバイスＡは、取得された第１モーダルデータに基づいてデータベースから検索し、クロスモーダル検索結果を取得して、さらに当該クロスモーダル検索結果をコンピュータデバイスＢに送信し、かつコンピュータデバイスＢで当該クロスモーダル検索結果を出力する。この２種の手段を支持するクロスモーダル検索デバイスが同一コンピュータデバイスである場合、仮にコンピュータデバイスＡであれば、コンピュータデバイスＡにより、入力された第１モーダルデータを自動的に認識し、当該第１モーダルデータに基づいてデータベースからマッチングする第２モーダルデータ検索し、クロスモーダル探索結果を取得してコンピュータデバイスＡで出力することができる。

【0025】

このように、本願の実施例が提供するクロスモーダル検索システムは、それぞれ第１モーダルデータの内容情報及び第１モーダルデータのセマンティック情報に基づいて、第２モーダルデータベースで第１モーダルデータにマッチングする第２モーダルデータを検索するようにサポートでき、これはクロスモーダル検索方式であり、それに、それぞれ内容、セマンティックとの２つの次元から総合的に検索することにより、検索がカバーする次元は単一でなくなり、第１モーダルデータに関連付けられるすべての第２モーダルデータをカバーし検索することができ、検索結果をより速く、より正確に得ることができる。なお、２つの次元で検索された第２モーダルデータをクロスモーダル検索結果としてマージすることにより、１回の検索過程で複数の次元の検索結果が得られ、クロスモーダル検索の効率が著しくアップするとともに、十分に豊富で全面的な検索結果を得ることができる。なお、クロスモーダル検索システムはさらに、ソーシャルセッションの履歴セッション記録に基づく検索機能を提供することができ、当該検索機能は、履歴セッション記録における第２モーダルデータを検索し、それに、全部のクロスモーダル検索結果を展示でき、又は、指定された次元に応じて検索することで、指定された次元のクロスモーダル検索結果を展示することができ、上記クロスモーダル検索手段の技術的サポートにより、検索機能を用いて履歴セッション記録における第２モーダルデータを検索する場合、第１モーダルデータの入力の自由度、複雑度が効果的にアップする。

【0026】

本願の実施例が提供するクロスモーダル検索方法をよりよく理解するために、以下、当該クロスモーダル検索方法の適用可能なシーンを説明する。具体的に言えば、本願の実施例のクロスモーダル検索方法は、以下に示すようなシーン１、シーン２に適用できるが、これらの適用シーンに限られない。以下、シーン１、シーン２をそれぞれに紹介する。

【0027】

シーン１：第１モーダルデータはテキストデータであり、第２モーダルデータは画像データであり、画像データ、テキストデータについて検索しマッチングする。ソーシャルセッションの履歴セッション記録には、多くの形式のセッションメッセージ、例えば、写真、動画、ファイル、リンク、音楽等が存在し、履歴セッション記録の検索は、履歴セッション記録に含まれる履歴セッションメッセージにより迅速に到達する方式である。写真又は動画形式の履歴セッション記録について検索する場合、手動で入力されたテキスト、又は選ばれた推薦テキストを検索テキストとし、そして、それにマッチングする、写真又は動画を含む画像データを出力することができる。なお、スマート端末のシステムアルバムにおける写真又は動画について検索する場合、本願の実施例のクロスモーダル検索方法を採用することもでき、同様に、テキストをクエリの入力とし、アルバムにおける画像特徴、及び画像に含まれるテキスト情報又は関連付けられたテキスト記述情報をマッチングすることにより、対応する画像データを出力することができる。

【0028】

シーン２：第１モーダルデータはオーディオデータであり、第２モーダルデータは画像データであり、画像データ、音声データについて検索しマッチングする。スマートフォンを例として、現在、多くのスマートフォンはいずれも、スマート音声の機能が搭載されており、スマート音声により、端末デバイスを制御して相応する操作を自動的に実行させることができる。スマートフォンにおける大量の写真又は動画に直面する場合、音声によりクロスモーダル検索に関する問題をクエリし、即ち、音声を認識し理解し、音声及び画像を同じ特徴比較空間にマッピングすることにより、それに対応する写真をマッチングし、さらに、音声をテキストに変換し、テキストを画像のカテゴリラベル、テキスト記述情報等と比較することにより、対応する写真又は動画をマッチングすることができる。本願の実施例のクロスモーダル検索方法により、音声をクエリの入力とし、携帯電話のアルバムにおける画像内容をマッチングすることにより、音声にマッチングする画像を自動的に出力することができる。

【0029】

以下、図面を結合して、本願の実施例が提出するクロスモーダル検索方法の具体的な実現方式を詳しく論述する。

【0030】

図２を参照すると、本願の実施例が提供するクロスモーダル検索方法の概略フローチャート一であり、当該クロスモーダル検索方法は、コンピュータデバイス（例えば、図１に示すクロスモーダル検索デバイス１０２）によって実行されてもよい。なお、当該クロスモーダル検索方法は、ステップＳ２０１～Ｓ２０４を含むが、これらに限られない。

【0031】

Ｓ２０１、第１モーダルデータを取得する。
モダリティとは、情報のソース又は形式を指すことができる。例を挙げると、人間には聴覚、視覚、嗅覚、触覚があり、情報の媒体には音声、動画、文字、写真等があり、以上のそれぞれはいずれも、モダリティと見なすことができる。本願の実施例では、クロスモーダル検索は主に、情報媒体に対する処理に関し、モーダルデータは具体的に、画像、動画、オーディオ等の異なる形式のデータであってもよい。取得された第１モーダルデータは、ユーザがコンピュータデバイスを介して入力したモーダルデータであってもよく、選択可能に、第１モーダルデータは、例えば、物理キーボード、仮想キーボード、カーソル選択等のアシスト方式で入力されたテキストデータ又は画像データであってもよく、又は、スマート音声デバイスを介して認識したオーディオデータであってもよく、又は、推薦された第１モーダルデータ（例えば、推薦テキスト）から選択されたものであってもよい。

【0032】

Ｓ２０２、第１モーダルデータの内容情報に基づいて第２モーダルデータベースで検索し、第１集合を取得する。

【0033】

第１集合には、第１モーダルデータの内容情報にマッチングする少なくとも１つの第２モーダルデータが含まれる。第１モーダルデータの内容情報は、第１モーダルデータに含まれる本質的な内容を記述するためのデータ情報である。例えば、第１モーダルデータはテキストであり、対応する内容情報は、テキストキャラクタ自体、又はテキストに基づいて抽出されたキーワードであってもよく、または、例えば、第１モーダルデータは画像であり、対応する内容情報は、画像に含まれる他のモーダル情報又は基本的な特徴であってもよく、例えば、画像に含まれる幾何学的形状、テクスチャ、色、オブジェクトカテゴリラベル、テキスト記述情報のうちのいずれか１種又は多種等である。第１モーダルデータの内容情報という次元に基づいて、第２モーダルデータベースで第１モーダルデータの内容情報にマッチングするすべての第２モーダルデータを検索するとともに、マッチングする第２モーダルデータを第１集合に追加することができる。

【0034】

１つの実施例では、第２モーダルデータベースにはＮ個の第２モーダルデータ、及びＮ個の第２モーダルデータの各自の属性情報が記憶されており、Ｎは正の整数である。第２モーダルデータ、第１モーダルデータは、２種の異なるモーダルのデータであり、第２モーダルデータは、テキスト、画像、オーディオ、動画等のモーダルデータのうちのいずれか１種であってもよく、第２モーダルデータベースに記憶された第２モーダルデータは、異なる業務シーンで異なる。例えば、ソーシャルセッションの履歴セッション記録の検索では、第２モーダルデータは、セッションで送受信された画像であってもよい。第２モーダルデータの属性情報は、第２モーダルデータの属性を記述する情報であり、第２モーダルデータから認識された、又は他のデータから生成された、関連情報であってもよく、当該属性情報と第１モーダルデータの内容情報は、同じ記録形式のデータであってもよく、例えば、いずれもテキスト記述情報である。第１モーダルデータの内容情報は、第２モーダルデータの属性情報にマッチングすることができ、これにより、マッチングする第２モーダルデータを第２モーダルデータベースで検索し、第１集合を取得する。

【0035】

選択可能に、ステップＳ２０２の具体的な実現方式は、以下のステップＳ２０２１、Ｓ２０２２を含み、Ｓ２０２１、Ｎ個の第２モーダルデータのうちの各第２モーダルデータについて、第１モーダルデータの内容情報と当該第２モーダルデータの属性情報との間のマッチング度を、当該第２モーダルデータに対応するマッチング度として決定し、Ｓ２０２２、対応するマッチング度がマッチング条件を満たす第２モーダルデータを第１集合に追加する。

【0036】

第１モーダルデータの内容情報をそれぞれに、第２モーダルデータベースのＮ個の第２モーダルデータのうちの各第２モーダルデータの属性情報にマッチングし、対応するマッチング度を得ることができる。ここでのマッチング度は、第１モーダルデータの内容情報と第２モーダルデータの属性情報との間が類似しているか否か、又は一致しているか否かを示すことができる。第１モーダルデータの内容情報と第２モーダルデータの属性情報との間のマッチング度については、モーダルデータの類似度（例えば、テキスト類似度）、又は抽象的なセマンティック類似度により測定してもよいし、他の方式を採用してもよく、ここでは制限しない。マッチング度がマッチング条件を満たすか否かを判断することにより、第２モーダルデータベースから、第１モーダルデータの内容情報にマッチングする第２モーダルデータを検索することができる。ここでのマッチング条件については、マッチング度がマッチング度閾値以上であるように設定してもよいし、マッチング度が上位ｙ位にあり、ｙが正の整数であるように設定してもよい。マッチング条件の具体的な設定内容を制限しない。

【0037】

選択可能に、属性情報は、第１モーダル記述情報、カテゴリラベルのうちの１種又は２種を含み、第１モーダル記述情報とは、第１モーダルの形式で記録された記述情報を指し、例えば、第１モーダルデータはテキストであり、それでは、第１モーダル記述情報はテキスト記述情報であり、さらに例えば、第１モーダルデータは画像であり、それでは、第１モーダル記述情報は画像記述情報である。第１モーダル記述情報は第２モーダルデータの属性情報として、第１モーダルデータの内容情報にマッチングすることができ、第１モーダルデータの内容情報、第２モーダルの属性情報がともに、同じモーダルの形式で記録される場合、同じモーダル情報のマッチングであり、このように、第１モーダルデータの内容情報と第２モーダルデータの第１モーダル記述情報との比較により、第１モーダルデータの内容情報にマッチングする第２モーダルデータをより便宜に選別することができる。カテゴリラベルは、第２モーダルデータに対してカテゴリを分割するためにアノテーションされた情報であり、手動で第２モーダルデータにアノテーションされたものであってもよいし、第２モーダルデータを分類モデルに入力してマルチラベル分類を行って得られたものであってもよい。第２モーダルデータのカテゴリラベルと第１モーダルデータの内容情報とをマッチングすることで、マッチング条件を満たす第２モーダルデータを検索するようにしてもよい。

【0038】

属性情報により、ステップＳ２０２１、Ｓ２０２２の詳しい実現ステップも異なる。具体的には、下記の２種の実施形態を参照可能である。記述を便利にさせるために、Ｎ個の第２モーダルデータのうちのいずれか１つを、第ｉ個の第２モーダルデータとして示し、ｉは正の整数であり、かつｉはＮ以下である。

【0039】

１つの実施形態では、属性情報は第１モーダル記述情報を含み、ステップＳ２０２１、Ｓ２０２２のそれぞれに対応する実現方式は、第１モーダルデータの内容情報と第ｉ個の第２モーダルデータの第１モーダル記述情報との間のセマンティック類似度を、当該第ｉ個の第２モーダルデータに対応するマッチング度として決定するステップ、第１モーダルデータの内容情報と第ｉ個の第２モーダルデータの第１モーダル記述情報との間のセマンティック類似度が第１類似閾値よりも大きいと、第ｉ個の第２モーダルデータを第１集合に追加するステップであってもよい。

【0040】

具体的には、第１モーダルデータの内容情報と第２モーダルデータの属性情報との間のマッチング度は、上記言及されたセマンティック類似度を採用することができ、セマンティック類似度の取得方式について、第１モーダルデータの内容情報に対応するセマンティック特徴、及び第ｉ個の第２モーダルデータの第１モーダル記述情報に対応するセマンティック特徴を抽出し、そして、第１モーダルデータの内容情報、第ｉ個の第２モーダルデータの第１モーダル記述情報の各自に対応するセマンティック特徴の間の類似度を決定し、それをセマンティック類似度とする方式であってもよい。その後、セマンティック類似度が第１類似閾値よりも大きいか否かを判断することにより、第ｉ個の第２モーダルデータがマッチング条件を満たすか否かを決定することができ、当該セマンティック類似度が第１類似閾値よりも大きいと、第ｉ個の第２モーダルデータの属性情報と第１モーダルデータの内容情報との間のマッチング度がマッチング条件を満たすことを示し、さらに第ｉ個の第２モーダルデータの属性情報が第１モーダルデータの内容情報にマッチングすることを表明する場合、第ｉ個の第２モーダルデータを第１集合に追加することができ、さもなければ、第ｉ個の第２モーダルデータが第１集合に追加されない。

【0041】

第１モーダルデータの内容情報と第２モーダルデータの第１モーダル記述情報との間のセマンティック類似度を算出することにより、第１モーダルデータの内容情報と、第２モーダルデータの第１モーダル記述情報が表現するセマンティックとの一致性を知り、さらに第２モーダルデータと第１モーダルデータとがマッチングするか否かを決定することができる。

【0042】

例示的には、第１モーダルデータはテキストデータであり、第２モーダルデータは画像データであり、第１モーダルデータの具体的な内容は「青い空と白い雲」であり、内容情報は当該テキスト内容であり、第２モーダルデータの第１モーダル記述情報は、画像内容に対するテキスト記述情報であり、当該テキスト記述情報は画像に関連付けられ、画像に含まれる文字情報であってもよいし、画像に関連付けられたテキスト記述情報であってもよい。画像に関連付けられたテキスト記述内容が「今日は空がとてもきれいですね」である場合、そのうちのキーワードである「空」を第１モーダル記述情報とすることができ、そして、「空」、「青い空と白い雲」との２つのテキストの各自に対応するセマンティック類似度を決定し、両者がマッチングするか否かを決定し、これにより、対応する画像が、テキストにマッチングする画像であるか否かを決定する。

【0043】

別の実施形態では、属性情報はカテゴリラベルを含み、ステップＳ２０２１、Ｓ２０２２のそれぞれに対応する実現方式は、第１モーダルデータの内容情報と第ｉ個の第２モーダルデータのカテゴリラベルとの間の類似度を、当該第ｉ個の第２モーダルデータに対応するマッチング度として決定するステップ、第１モーダルデータの内容情報と第ｉ個の第２モーダルデータのカテゴリラベルとの間の類似度が第２類似閾値よりも大きいと、第ｉ個の第２モーダルデータを第１集合に追加するステップであってもよい。

【0044】

属性情報にカテゴリラベルが含まれる場合、上記マッチング度は具体的に、第１モーダルデータの内容情報と第ｉ個の第２モーダルデータのカテゴリラベルとの間の類似度を指し、例えば、テキスト類似度であってもよく、類似度は、第２モーダルデータのカテゴリラベルと第１モーダルデータの内容情報との一致程度を代表することができ、第１モーダルデータの内容情報が第ｉ個の第２モーダルデータのカテゴリラベルと完全に同等である場合、第ｉ個の第２モーダルデータは、マッチング条件を満たす第２モーダルデータであり、又は、第１モーダルデータの内容情報がカテゴリラベルと十分に類似し、同じ理由により、第ｉ個の第２モーダルデータを、マッチング条件を満たす第２モーダルデータとして決定してもよい。第ｉ個の第２モーダルデータがマッチング条件を満たすか否かについて、具体的には、第１モーダルデータの内容情報と第ｉ個の第２モーダルデータのカテゴリラベルとの間の類似度が第２類似度閾値よりも大きいか否かにより決定することができ、類似度が第２類似度閾値よりも大きいと、第１モーダルデータの内容情報と第ｉ個の第２モーダルデータのカテゴリラベルとの間のマッチング度がマッチング条件を満たすことを表明し、さらに第ｉ個の第２モーダルデータのカテゴリ情報と第１モーダルデータの内容情報とがマッチングすることを表明し、第ｉ個の第２モーダルデータが第１集合に追加され、さもなければ、第ｉ個の第２モーダルデータが第１集合に追加されない。

【0045】

例示的には、第１モーダルデータは検索テキストであり、第２モーダルデータは画像であり、第ｉ個の第２モーダルデータはターゲット画像であり、かつ分類モデルによって「人物」、「風景」との２つのカテゴリラベルに分けられ、それでは、検索テキストの入力が「人物」又は「風景」である場合、カテゴリラベルと検索テキストとが完全に同等であるため、当該写真がマッチングされ、ここで使用される類似度は具体的に、テキスト類似度であってもよい。

【0046】

なお、カテゴリラベルのみを使用して文字ベースの画像検索を実現し、かつ検索語がカテゴリラベルと完全に同等である場合のみ関連写真にマッチングできれば、検索語に対する要求が高く、サポートされる検索語が限られかつ次元が単一であるため、検索しても結果が見つからない状況が容易に現れる可能性がある。他の次元の情報を総合して検索し、具体的にはセマンティック、内容との２つの次元から検索し、同時にマッチング条件を低減し、例えば、当該カテゴリラベルを含むこともマッチングと見なすことができ、検索効率をアップすることができるだけでなく、検索結果が空きである確率を低減することもできる。

【0047】

なお、上記２種の実施形態は、Ｎ個の第２モーダルデータのうちのいずれか１つの第２モーダルデータについても適用され、このように、第２モーダルデータベースに記憶されたＮ個の第２モーダルデータがいずれも第１モーダルデータの内容情報と上記方式に応じてマッチングした後、最終的に得られる第１集合は、下記のクロスモーダル検索結果の一部とすることができる。

【0048】

Ｓ２０３、第１モーダルデータのセマンティック情報に基づいて第２モーダルデータベースで検索し、第２集合を取得する。

【0049】

第２集合には、第１モーダルデータのセマンティック情報にマッチングする少なくとも１つの第２モーダルデータが含まれる。第１モーダルデータのセマンティック情報を別の情報表現形式とすることは、具体的に、第１モーダルデータに対応する現実世界の事物が代表する意味を指してもよい。セマンティック情報は、第１モーダルデータに対する浅層又は深層のセマンティック理解を特徴づけるために用いられてもよく、セマンティック情報は非常に豊富なものであってもよく、例えば、第１モーダルデータがテキストである場合、同じセマンティックは、多くの異なるテキスト表現があってもよく、非常に柔軟である。

【0050】

第１モーダルデータのセマンティック情報という次元により第２モーダルデータベースで検索することは、具体的に、第２モーダルデータのセマンティック情報と第１モーダルデータのセマンティック情報とをマッチングすることができ、さらに、第１モーダルデータのセマンティック情報にマッチングするすべての第２モーダルデータを第２モーダルデータベースから検索し、第２集合を取得する。なおセマンティック情報は、セマンティック特徴で示してもよく、具体的にはセマンティック特徴ベクトルであってもよい。マルチモーダル学習を基礎とし、第１モーダルデータのセマンティック特徴、第２モーダルデータのセマンティック特徴をそれぞれ抽出することにより、２つの異なるモーダルデータのセマンティック特徴を同じセマンティック特徴空間にマッピングして類似度の比較を行うことができ、さらに、類似するセマンティック特徴に基づいて、類似するセマンティックを有する第２モーダルデータが検索される。このステップの具体的な実現方式について、下記の図３に対応する実施例の紹介を参照可能であり、ここでは詳しく説明しない。

【0051】

第１モーダルデータがテキスト、第２モーダルデータが画像である条件では、このステップは、クロスモーダル特徴に基づく文字ベースの画像検索方式であり、即ち、検索語のテキスト特徴ベクトル、写真の画像特徴ベクトルをそれぞれ抽出することにより、２種の異なるモーダルの特徴ベクトルを同じセマンティック特徴空間で類似度を比較し、これにより、テキスト記述により、類似するセマンティックを有する画像を直接にクロスモーダルで探索し、このように、より多く、より複雑なテキスト記述をサポートし、画像を記述する、自由で多様なテキストを入力してターゲット写真を検索することを実現することができる。

【0052】

Ｓ２０４、第１集合と第２集合とをマージし、第１モーダルデータに対応するクロスモーダル検索結果を取得する。

【0053】

上記ステップに応じて第２モーダルデータベースに記憶されたＮ個の第２モーダルデータを検索することにより、第１モーダルデータの内容にマッチングする第１集合、及び第１モーダルデータのセマンティックにマッチングする第２集合を取得することができる。第１集合と第２集合とをマージすることにより、第１モーダルデータの内容情報にマッチングする第２モーダルデータ、及び第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを含む、第１モーダルデータにマッチングするすべての第２モーダルデータを取得することができ、即ち、第１モーダルデータに対応するクロスモーダル検索結果であり、これによって得られるクロスモーダル検索結果は、複数の次元の検索結果を含み、多様で、全面的な検索結果である。

【0054】

本願の実施例が提供するクロスモーダル検索手段について、第１モーダルデータの内容情報に基づいて、第１モーダルデータの内容情報にマッチングする第２モーダルデータを第２モーダルデータベースで検索することができ、第１モーダルデータのセマンティック情報に基づいて、第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを第２モーダルデータベースで検索することができ、このような検索方式はある次元に限らず、複数の次元から総合的に検索する方式であり、これにより、検索がカバーする次元は単一でなくなり、それに、１回の検索で複数の次元の検索結果を取得でき、このように、クロスモーダル検索の効率を向上させ、また、第１モーダルデータの２つの次元にそれぞれにマッチングする第２モーダルデータを、クロスモーダル検索結果としてマージすることにより、より豊富で多様なクロスモーダル検索結果を取得することができ、第１モーダルデータの内容情報に基づいて検索することは、具体的に、第１モーダルデータの内容情報と第２モーダルデータの属性情報（第１モーダル記述情報又はカテゴリラベルであってもよい）との間のマッチング度を根拠とし、属性情報は、第２モーダルデータに含まれる内容に対する記述が多いため、それに応じて、第１モーダルデータも、固定の表現に限らず、より多様で複雑な表現をサポートするようにしてもよい。

【0055】

図３を参照すると、本願の実施例が提供するクロスモーダル検索方法の第２の概略フローチャートであり、当該方法は、コンピュータデバイス（例えば、図１に示すクロスモーダル検索デバイス１０２）によって実行されてもよい。本実施例のクロスモーダル検索方法は、第１モーダルデータのセマンティック情報に基づいて第２モーダルデータベースで検索し、第２集合を取得するという図２に対応するステップＳ２０３の対応する実現方式への詳しい紹介である。

【0056】

第２モーダルデータベースにはＮ個の第２モーダルデータが記憶されている。第２モーダルデータには第２モーダル特徴ライブラリが関連付けられており、当該第２モーダル特徴ライブラリには、Ｎ個の第２モーダルデータの各自のセマンティック特徴が記憶されている。第１モーダルデータのセマンティック情報に基づいて第２モーダルデータベースで検索し、第２集合を取得するステップの具体的な実現方式は、以下のステップＳ３０１～Ｓ３０４を含む。

【0057】

Ｓ３０１、第１モーダルデータのセマンティック特徴を取得する。
１つの実施例では、第１モーダルデータのセマンティック特徴は、クロスモーダル検索モデルの処理によって取得でき、具体的には、クロスモーダル検索モデルは第１モーダル処理ネットワークを含み、このステップの具体的な実現方式は、クロスモーダル検索モデルにおける第１モーダル処理ネットワークを通じて、第１モーダルデータに対して特徴抽出処理を行い、第１モーダルデータのセマンティック特徴を取得する方式であってもよい。第１モーダル処理ネットワークは、第１モーダルデータに対する処理ネットワークであり、例示的には、第１モーダルデータがテキストである場合、第１モーダル処理ネットワークはテキスト処理ネットワークであってもよく、当該テキスト処理ネットワークは、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、事前にトレーニングされた言語的特徴モデル）モデル、又はＢＥＲＴに関する各種の変異型モデルであってもよいし、他の自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰ）モデルであってもよい。図４ａに示すように、テキストエンコーダ処理の概略図であり、テキストを入力とし、テキストエンコーダ（Ｔｅｘｔｅｎｃｏｄｅｒ）は、テキスト特徴ベクトルを出力することができる。

【0058】

Ｓ３０２、第１モーダルデータのセマンティック特徴に基づいて、第１モーダルデータのセマンティック特徴にマッチングするターゲットセマンティック特徴を第２モーダル特徴ライブラリで探す。

【0059】

第１モーダルデータのセマンティック特徴と第２モーダルデータのセマンティック特徴とがマッチングするか否かは、２種のモーダルデータのセマンティック特徴の間の類似度が類似度閾値よりも大きいか否かを判断することによって決定できる。具体的には、第２モーダル特徴ライブラリに記憶されたＮ個の第２モーダルデータのセマンティック特徴と、第１モーダルデータのセマンティック特徴との間の特徴類似度をそれぞれに算出し、特徴類似度が類似度閾値よりも大きい第２モーダルデータのセマンティック特徴を、第１モーダルデータのセマンティック特徴にマッチングする第２モーダルデータのセマンティック特徴、即ち、ターゲットセマンティック特徴として決定することができる。上記方式に応じて、第２モーダル特徴ライブラリから１つ又は複数のターゲットセマンティック特徴を探すことができる。

【0060】

例示的には、第１モーダルデータはテキストであり、第２モーダルデータは画像であり、第１モーダルデータに対応するセマンティック特徴はテキスト特徴ベクトルであり、第２モーダルデータに対応するセマンティック特徴は画像特徴ベクトルであり、テキスト特徴ベクトルを用いて、画像特徴ライブラリから類似する画像特徴ベクトルを探索し、具体的な探索方式は、テキスト特徴ベクトル、画像特徴ベクトルを使用して特徴類似度を算出するとともに、特徴類似度が閾値よりも高い画像特徴ベクトルを、テキスト特徴ベクトルにマッチングするターゲット画像特徴ベクトルとする方式であってもよい。

【0061】

Ｓ３０３、ターゲットセマンティック特徴に応じて、第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを第２モーダルデータベースで決定する。

【0062】

第２モーダル特徴ライブラリが第２モーダルデータベースに関連付けられているため、第２モーダル特徴ライブラリで探したターゲットセマンティック特徴を利用することは、第２モーダルデータベースから当該ターゲットセマンティック特徴に対応する第２モーダルデータを決定し、さらにそれを第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータとすることができる。

【0063】

１つの実施例では、第２モーダル特徴ライブラリと第２モーダルデータベースとは、特徴インデックスによって関連付けられ、ステップＳ３０３の実現方式は具体的に、（１）ターゲットセマンティック特徴に対応する特徴インデックスを決定するステップと、（２）ターゲットセマンティック特徴に対応する特徴インデックスに基づいて、当該ターゲットセマンティック特徴に対応する特徴インデックスの対応する第２モーダルデータを第２モーダルデータベースで決定するステップと、を含んでもよい。

【0064】

第２モーダル特徴ライブラリにおける各第２モーダルデータのセマンティック特徴は特徴インデックスと関連付けられており、かつ各特徴インデックスは唯一性を備え、特徴インデックスと第２モーダルデータベースにおける第２モーダルデータとも、関連関係が存在し、このように、第２モーダルデータベースにおける第２モーダルデータと、第２モーダル特徴ライブラリにおける第２モーダルデータのセマンティック特徴とは、特徴インデックスによって１つずつ関連付けることができ、これにより、探したターゲットセマンティック特徴に対応する特徴インデックスに基づいて、第２モーダルデータベースから当該特徴インデックスに対応する第２モーダルデータを選び、第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを取得することができる。

【0065】

Ｓ３０４、第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを第２集合に追加する。

【0066】

第２モーダルデータベースから決定された、第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータは、第２集合に追加でき、第２モーダルデータベースに記憶されたすべての第２モーダルデータについては、いずれも上記ステップに応じて処理することができ、さらに第１モーダルデータのセマンティック情報にマッチングするすべての第２モーダルデータを決定するとともに、それを第２集合に１つずつ追加し、また、最終的に得られる第２集合をクロスモーダル検索結果のうちの一部とすることができる。

【0067】

本願の実施例が提供するクロスモーダル検索方法は、第１モーダルデータのセマンティック情報という次元から検索し、第１モーダルデータ、第２モーダルデータとの２種のモーダルデータの各自に対応するセマンティック特徴を抽出することにより、同じセマンティック空間で、第１モーダルデータのセマンティック特徴と第２モーダルデータのセマンティック特徴とに対して特徴比較処理を行い、第２モーダル特徴ライブラリから第１モーダルデータのセマンティック特徴にマッチングするターゲットセマンティック特徴を探し、さらに探したターゲットセマンティック特徴に基づいて、第２モーダルデータベースから第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを決定し、クロスモーダル検索結果を取得する。このような方式は本質的に、クロスモーダル特徴に基づいて検索する方式であり、セマンティック面のクロスモーダル特徴により、第１モーダルデータにマッチングする検索結果をより快速で正確に検索することができ、ある程度にクロスモーダル検索結果の多様性を増やすこともできる。

【0068】

以上により分かるように、第１モーダルデータのセマンティック情報に基づいて第２モーダルデータで検索することは、第２モーダル特徴ライブラリを介する必要があり、次に、第２モーダル特徴ライブラリに記憶された第２モーダルデータのセマンティック特徴の取得方式を詳しく紹介する。

【0069】

１つの実施例では、クロスモーダル検索モデルは第２モーダル処理ネットワークを含み、第２モーダルデータベースに記憶されたＮ個の第２モーダルデータのセマンティック特徴は、クロスモーダル検索モデルにおける第２モーダル処理ネットワークを通じてＮ個の第２モーダルデータに対してそれぞれに特徴抽出を行って得られたものである。第２モーダル処理ネットワークは、第２モーダルデータに対する処理ネットワークであり、機能が異なる多種のネットワークを含むことができる。第２モーダルデータが画像であることを例として、第２モーダル処理ネットワークは具体的に、画像処理ネットワークであってもよい。

【0070】

選択可能に、第２モーダル処理ネットワークは、特徴抽出ネットワーク、プーリング処理ネットワーク、及び特徴統合ネットワークを含み、記述を便利にさせるために、Ｎ個の第２モーダルデータのうちのいずれか１つは、第ｉ個の第２モーダルデータとして示し、ｉは正の整数であり、かつｉはＮ以下であり、即ち、すべてのＮ個の第２モーダルデータはいずれも、下記のステップに応じて処理し、対応するセマンティック特徴を取得する。これに基づいて、クロスモーダル検索モデルにおける第２モーダル処理ネットワークを通じてそれぞれにＮ個の第２モーダルデータに対して特徴抽出処理を行い、Ｎ個の第２モーダルデータのセマンティック特徴を取得するステップは具体的に、第２モーダル処理ネットワークにおける特徴抽出ネットワークを通じて、第ｉ個の第２モーダルデータの初期特徴を抽出するステップと、第２モーダル処理ネットワークにおけるプーリング処理ネットワークを通じて、初期特徴に対してプーリング処理を行い、第ｉ個の第２モーダルデータのプーリング特徴を取得するステップと、特徴統合ネットワークを通じて、プーリング特徴に対して統合処理を行い、第ｉ個の第２モーダルデータのセマンティック特徴を取得するステップと、を含んでもよい。

【0071】

なお、特徴抽出ネットワークは、画像処理用のディープモデルであってもよく、例えば、通常の畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）モデル、又は特徴抽出用のＶＩＴ（ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ）モデルであり、特徴抽出ネットワークは、第２モーダル処理ネットワークにおけるバックボーンネットワーク（Ｂａｃｋｂｏｎｅ）であり、主に第２モーダルデータの初期特徴を抽出して、後続のネットワークに使用させる。プーリング処理ネットワークは、特徴抽出ネットワークから出力された初期特徴に対してプーリング処理を行い、具体的には、グローバル平均プーリング処理（ＧｌｏｂａｌＡｖｅｒａｇｅＰｏｏｌｉｎｇ、ＧＡＰ）であってもよく、この場合、プーリング処理ネットワークは、グローバル平均プーリング層と呼ばれてもよく、グローバル平均プーリングにより、パラメータ量を低減し、オーバーフィッティングを防止することができるだけでなく、グローバル空間情報を統合し、第２モーダルデータの特徴をよりロバストにすることもできる。その後、特徴統合ネットワークを呼び出してプーリング処理ネットワークから出力されたプーリング特徴に対して統合処理を行い、第ｉ個の第２モーダルデータのセマンティック特徴を取得することができる。当該特徴統合ネットワークは具体的に、特徴完全接続層であってもよく、完全接続層が、入力されるオブジェクトが１次元のものであることを要求するため、プーリング特徴が特徴統合ネットワークに入力されて処理される前に、１次元の特徴に平坦化する必要があり、そして、さらに特徴統合ネットワークにより当該１次元の特徴を処理して、第２モーダルデータのセマンティック特徴を取得する。

【0072】

なお、上記方式は、Ｎ個の第２モーダルデータのうちのいずれか１つの第２モーダルデータについてクロスモーダル検索モデルにより処理する原理であり、つまり、Ｎ個の第２モーダルデータのうちのそれぞれの第２モーダルデータについて、いずれも同じ処理ステップを採用して第２モーダルデータのセマンティック特徴を抽出し、さらに第２モーダル特徴ライブラリに記憶することができる。

【0073】

１つの可能な実施例では、第２モーダル処理ネットワークはさらに、分類ネットワークを含み、さらに、分類ネットワークを通じて、プーリング特徴に基づいて分類予測処理を行い、第ｉ個の第２モーダルデータのカテゴリラベルを取得して、第ｉ個の第２モーダルデータのカテゴリラベルを第２モーダルデータベースに追加するようにしてもよい。当該分類ネットワークは分類完全接続層であってもよく、特徴完全接続層と似ているように、分類完全接続層が処理するプーリング特徴も、平坦化した後の１次元特徴であり、分類完全接続層の出力が活性化関数（例えば、Ｓｉｇｍｏｉｄ関数）を通じて、第ｉ個の第２モーダルデータが各々のカテゴリに属するスコアを取得することにより、対応するカテゴリラベルを取得する。第２モーダルデータベースにおけるＮ個の第２モーダルデータのカテゴリラベルについてはいずれも、上記分類ネットワークを採用して多分類処理を行うことで取得でき、それに、各々の第２モーダルデータのカテゴリラベルはいずれも、第２モーダルデータベースに追加でき、これにより、第１モーダルデータを処理する場合、各々の第２モーダルデータのカテゴリラベルと第１モーダルデータの内容情報との間の類似度に応じて、第１モーダルデータにマッチングする第２モーダルデータを検索することを便利にさせる。

【0074】

上記の第２モーダル処理ネットワークに対する記述に基づいて、第２モーダル処理ネットワークの具体的な構造を知ることができる。仮に第２モーダルデータが画像であれば、第２モーダル処理ネットワークが具体的に画像エンコーダであり、特徴抽出ネットワーク、プーリングネットワーク、特徴統合ネットワーク及び分類ネットワークを含み、具体的には、それぞれバックボーンネットワーク、グローバル平均プーリング層、特徴完全接続層及び分類完全接続層であり、第２モーダルデータベースが具体的に画像ライブラリであり、第２モーダル特徴ライブラリが具体的に画像特徴ベクトル探索セットであり、第２モーダル処理ネットワークの第２モーダルデータを処理する処理フローについて、図４ｂに示すようなクロスモーダル検索モデルにおける画像エンコーダの構造を結合して以下のような例示的な説明を行う。

【0075】

図４ｂに示すようなクロスモーダル検索モデルにおける画像エンコーダは具体的に、バックボーンネットワークＢａｃｋｂｏｎｅ、グローバル平均プーリング層、分類完全接続層及び特徴完全接続層を含む。仮にセッションオブジェクトがセッションで送受信した画像がＸＩであれば、画像ＸＩが画像エンコーダに入力され、画像エンコーダは、画像のマルチラベル分類結果Ｃ_Ｉ＝｛ｃ_１、ｃ_２、…、ｃ_ｎ｝及び画像の特徴ベクトルｆ_Ｉ（又は画像特徴ベクトルと呼ぶ）を出力することができ、具体的な処理過程は以下のとおりである。まず、画像は画像エンコーダの入力とし、画像エンコーダのバックボーンネットワーク（例えば、ＣＮＮ又はＶＩＴ）を通じて画像の特徴マップ（即ち、初期特徴）を取得し、そして、画像の特徴マップは、グローバル平均プーリング処理を経て１次元のベクトルに平坦化し、その後、平坦化した１次元のベクトルを分類完全接続層（ＣｌｓＦＣ）に入力して長さＣの１次元のベクトルを出力し、Ｓｉｇｍｏｉｄ関数を通じて各カテゴリのスコアを取得することにより、対応するカテゴリラベルＣ_Ｉ＝｛ｃ_１、ｃ_２、…、ｃ_ｎ｝を取得し、同時に、当該１次元のベクトルはさらに、特徴完全接続層（ＦｅａｔｕｒｅＦＣ）に入力されて長さｄ（仮に５１２であれば）のベクトルを出力し、さらにＬ２正規化（Ｌ２Ｎｏｒｍａｌｉｚａｔｉｏｎ）を通じて、画像の特徴ベクトルｆ_Ｉとする。画像の特徴ベクトルｆ_Ｉは、画像特徴ベクトル探索セット（第２モーダル特徴ライブラリに対応する）に記憶されるが、画像に対応するマルチラベル分類のカテゴリラベルは、第２モーダルデータベースに記憶されることができ、最後に、さらに画像特徴ベクトルｆ_Ｉに応じて、対応する画像特徴ベクトルのインデックスを新たに増やして画像特徴ベクトル探索セットＧ_Ｉに増加することができ、これにより、画像ライブラリからターゲット画像を快速に検索するようにアシストすることを便利にさせる。

【0076】

上記の図４ａに示すクロスモーダル検索モデルにおける第１モーダル処理ネットワーク、及び図４ｂに示すクロスモーダル検索モデルにおける第２モーダル処理ネットワークを結合すれば、クロスモーダル検索モデルを利用して検索する場合、第１モーダルデータに対する具体的な処理過程は以下のとおりである。記述を便利にさせるために、第１モーダルデータがテキストであり、第１モーダル処理ネットワークが対応的にテキストエンコーダであることを例として説明し、出力されるテキスト特徴ベクトル、画像特徴ベクトルは、同じセマンティック特徴空間にマッピングされかつ次元が同じである特徴ベクトルであり、テキストに対する処理は具体的に以下のステップを含み、即ち、まず、テキストの内容情報から画像ライブラリで検索し、具体的には、画像ライブラリから、テキストｑｕｅｒｙと完全にマッチングするラベルを含む画像をクエリし、マッチングされた画像を画像セットＡとしてリコールすることができる。同時に、テキストはテキストエンコーダに入力され、テキストエンコーダは、長さｄのベクトルを出力し、Ｌ２正規化を通じて、テキスト特徴ベクトルｆ_Ｔを取得し、そして、テキスト特徴ベクトルｆ_Ｔを用いて画像特徴ベクトル探索セットＧ_Ｉ（それに含まれる画像特徴ベクトルは、図４ｂに示すような画像エンコーダが画像を処理して得られたものである）から類似する画像特徴ベクトルを探索し、対応する画像セットＢをリコールし、具体的な探索方式は、テキスト特徴ベクトルｆ_Ｔ、探索セットにおける画像特徴ベクトルｆ_Ｉを用いて特徴類似度、即ち、Ｓ＝ｆ_Ｔ・ｆ_Ｉを算出し、特徴類似度Ｓが閾値θよりも高い画像を画像セットＢとして探索し、最終的に画像セットＡと画像セットＢとをマージし、クロスモーダル検索結果を取得する方式である。

【0077】

１つの実施例では、上記のクロスモーダル検索モデルの構造及び機能に対する記述を結合すれば、クロスモーダル検索モデルは第１モーダル処理ネットワークと、第２モーダル処理ネットワークとを含み、具体的なトレーニング過程は以下のとおりであってもよい。１）クロスモーダルトレーニングデータセットを取得し、クロスモーダルトレーニングデータセットは、複数組のクロスモーダルサンプルデータを含み、各組のクロスモーダルサンプルデータは、第２モーダルサンプルデータ、第１モーダルサンプルデータ、及び当該第２モーダルサンプルデータと当該第１モーダルサンプルデータとの間のマッチング結果を含み、２）クロスモーダル検索モデルにおける第１モーダル処理ネットワークを通じて、クロスモーダルサンプルデータのうちの第１モーダルサンプルデータに対して特徴抽出処理を行い、第１モーダルサンプルデータのセマンティック特徴を取得し、クロスモーダル検索モデルにおける第２モーダル処理ネットワークを通じて、クロスモーダルサンプルデータのうちの第２モーダルサンプルデータに対して特徴抽出処理を行い、第２モーダルサンプルデータのセマンティック特徴を取得し、３）第１モーダルサンプルデータのセマンティック特徴と第２モーダルサンプルデータのセマンティック特徴との間のクロスモーダルコントラスト損失に応じて、クロスモーダル検索モデルに対して反復トレーニングを行い、トレーニングされたクロスモーダル検索モデルを取得する。

【0078】

トレーニングデータ準備段階では、相応するシーンによって生成された業務データから、クロスモーダルトレーニングデータセットを取得することができ、クロスモーダルトレーニングデータセットは、２種の異なるモーダルサンプルデータの集合であり、クロスモーダル検索モデルのトレーニングについては、各組のクロスモーダルサンプルデータを単位としてクロスモーダル検索モデルに入力して処理するようにしてもよい。例を挙げると、第１モーダルサンプルデータ、第２モーダルサンプルデータはそれぞれ、テキスト、画像であり、それでは、各組のクロスモーダルサンプルデータは、画像－テキストペアであってもよく、即ち、画像と、画像に対応するテキスト記述は画像－テキストペアを構成でき、大量の画像－テキストペアは、クロスモーダルトレーニングデータセットを構成できる。

【0079】

クロスモーダル検索モデルのトレーニング過程について、具体的には、第１モーダル処理ネットワーク、第２モーダル処理ネットワークに対してハイブリッドトレーニングを行う。Ｋ組のクロスモーダルサンプルデータを同時に入力することができ、そして、第１モーダル処理ネットワークを通じて第ｉ組のクロスモーダルサンプルデータのうちの第１モーダルサンプルデータを処理し、当該第１モーダルサンプルデータのセマンティック特徴を取得し、第２モーダル処理ネットワークを通じて第ｉ組のクロスモーダルサンプルデータのうちの第２モーダルサンプルデータを処理し、当該第２モーダルサンプルデータのセマンティック特徴を取得し、さらに、２種の異なるモーダルサンプルデータのセマンティック特徴に応じてクロスモーダルコントラスト損失を算出し、当該クロスモーダルコントラスト損失に基づいてクロスモーダル検索モデルに対して反復トレーニングを行い、収束するまでモデルパラメータを継続的に更新すると、トレーニングされたモデルを取得することができる。

【0080】

第２モーダル処理ネットワークが分類処理ネットワークを含む場合、クロスモーダルトレーニングデータセットにはさらに、第２モーダルサンプルデータに対応するカテゴリラベルが含まれてもよく、具体的には、トレーニング過程はさらに、クロスモーダル検索モデルにおける第２モーダル処理ネットワークを通じてクロスモーダルサンプルデータのうちの第２モーダルサンプルデータに対して分類予測処理を行い、第２モーダルサンプルデータのカテゴリ予測情報を取得するステップと、カテゴリ予測情報とカテゴリラベルに応じて第２モーダルサンプルデータの分類損失を決定するステップと、分類損失とクロスモーダルコントラスト損失に応じてクロスモーダル検索モデルに対して反復トレーニングを行い、トレーニングされたクロスモーダル検索モデルを取得するステップと、を含んでもよい。カテゴリ予測情報は、第２モーダルサンプルデータが各々のカテゴリに属する予測確率を含んでもよく、分類損失については、クロスエントロピー損失を使用してもよく、その後、分類損失とクロスモーダルコントラスト損失とを合わせて合計損失とすることができ、例えば、分類損失、クロスモーダルコントラスト損失に対して加重加算を行って合計損失を取得し、さらにオプティマイザ（例えば、確率勾配降下（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ、ＳＧＤ）オプティマイザ）でクロスモーダル検索モデルのモデルパラメータを更新し、モデルパラメータが収束するまで上記トレーニング過程を継続的に重複し、トレーニングされたクロスモーダル検索モデルを取得する。このように、クロスモーダル検索モデルは、第１モーダルデータ、第２モーダルデータのセマンティック特徴抽出処理に適用され、クロスモーダル特徴に基づいて、第１モーダルデータと第２モーダルデータとの間のマッチング度を検出することができるだけでなく、クロスモーダル検索モデルはさらにマルチラベル分類機能を備え、第２モーダルデータのためにカテゴリラベルを生成して第２モーダルデータベースに記憶する。

【0081】

トレーニング段階の原理をよりよく理解するために、以下、第１モーダル処理ネットワークがテキストエンコーダであり、第２モーダル処理ネットワークが画像エンコーダであることを例として、クロスモーダル検索モデルのトレーニング過程に対して以下のように例を挙げて説明する。図５を参照すると、本願の実施例が提供するクロスモーダル検索モデルのトレーニング概略図である。仮にクロスモーダルトレーニングデータセットがＫ組の画像－テキストペア（又は画像テキストペアという）を含めば、トレーニングの場合、Ｋ組の画像－テキストペアを同時に入力し、それぞれに画像エンコーダ、テキストエンコーダにより画像特徴ベクトル

【数1】

、テキスト特徴ベクトル

【数2】

を取得し、それに、画像エンコーダはさらに、カテゴリ予測確率ＰＩに対応する画像のＣ個のカテゴリの予測確率を出力する。その後、ＩｎｆｏＮＣＥｌｏｓｓを用いて画像－テキストペアの間のクロスモーダルコントラスト損失を算出することができ、具体的な表現式は以下のとおりである。

【数3】

【0082】

なお、

【数4】

は第ｉ個の画像特徴ベクトルを示し、

【数5】

は第ｉ個のテキスト特徴ベクトルを示す。クロスモーダルコントラスト損失の主な思想は、最大化類似性、最小化差異性の損失であり、具体的に言えば、画像－テキストペアを正サンプルペア、負サンプルペアに分割することができ、正サンプルペアとは、画像とテキスト記述とがマッチングする画像－テキストペアを指し、負サンプルペアとは、画像とテキスト記述とがマッチングしない画像－テキストペアを指す。クロスモーダルコントラスト損失において、

【数6】

で正サンプルペアの間の類似度を示し、

【数7】

で負サンプルペアの間の類似度を示し、このように、クロスモーダルコントラスト損失が小さいほど、第１モーダルサンプルデータと第２モーダルサンプルデータとはマッチングする。

【0083】

画像の分類損失Ｌ_ｃｌｓについては、クロスエントロピー損失（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ、ＣＥＬ）で算出することができ、Ｌ_ｃｌｓとＬ_{ｉｎｆｏＮＣＥ}とを合わせて合計損失とし、収束するまで、ＳＧＤオプティマイザでモデルパラメータを更新する。

【0084】

上記実施例の紹介に基づいて、第１モーダルデータがテキストであり、第２モーダルデータが画像であることを例として、クロスモーダル検索手段で採用されるアルゴリズムフローを説明し、具体的には、図６に示すようなアルゴリズムフローチャートを参照可能である。画像が画像エンコーダに入力されてマルチラベル分類を行うと、カテゴリラベルを取得することができ、検索テキスト（ｑｕｅｒｙと表記する）がカテゴリラベルと完全に同等である場合、関連画像をマッチングすることができる。なお、画像エンコーダはさらに、画像特徴ベクトルを出力するとともに、画像特徴ベクトルと、新たに増やしたインデックスを画像特徴ベクトル探索セットに追加することができる。検索テキストｑｕｅｒｙについて、テキストエンコーダに入力し、テキスト特徴ベクトルを出力し、そして、テキスト特徴ベクトルに基づいて画像特徴ベクトル探索セットから類似する画像特徴ベクトルを探索し、当該類似する画像特徴ベクトルに基づいて対応する画像セットをリコールすることができる。このような、クロスモーダル特徴に基づいて検索する手段は、分類モデルの固定クラスラベル体系に依存しなく、異なるモーダルデータの特徴によりマッチングすることができるため、より多様で複雑なテキスト記述をサポートでき、これにより、検索語の入力の自由度をアップし、ターゲット写真をより速く、より正確に、かつより全面的に見つけることができる。

【0085】

図７を参照すると、本願の実施例が提供するクロスモーダル検索方法の第３の概略フローチャートであり、当該クロスモーダル検索方法は、コンピュータデバイス（例えば、図１に示すクロスモーダル検索デバイス１０２、当該クロスモーダル検索デバイス１０２は具体的に端末であってもよい）によって実行されてもよい。当該クロスモーダル検索方法は、ステップＳ７０１～Ｓ７０３を含むが、これらに限られない。

【0086】

Ｓ７０１、ソーシャルセッションのセッションインターフェースを表示する。
ここでのソーシャルセッションは、個人対個人の間のセッション、又はグループのセッションであってもよい。ソーシャルセッションのセッションインターフェースにおいて、セッションオブジェクトは、セッションメッセージ、例えば、画像、テキスト、音声等を送受信することができる。セッションインターフェースで受信したセッションメッセージが第２モーダルデータを含む場合、クロスモーダル検索モデルにおける第２モーダル処理ネットワークを呼び出して第２モーダルデータを処理し、マルチラベル分類のカテゴリラベル及び第２モーダルデータのセマンティック特徴を出力し、さらに、カテゴリラベルを第２モーダルデータベースに格納し、第２モーダルデータのセマンティック特徴（例えば、画像特徴ベクトル）を第２モーダル特徴ライブラリに格納することができる。

【0087】

ソーシャルセッションのセッションインターフェースは、履歴セッション記録のチェック機能を提供できる。具体的には、セッションインターフェースからセッション詳細インターフェースに入るようにしてもよく、当該セッション詳細インターフェースには履歴セッション記録のチェックエントリが含まれ、セッションオブジェクトは、当該チェックエントリによりチェック操作を開始し、具体的な履歴セッション記録をチェックして検索することができ、具体的には、下記のステップＳ７０２～Ｓ７０３を参照可能である。

【0088】

Ｓ７０２、ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示する。
当該セッション記録詳細インターフェースには、ソーシャルセッションの履歴セッション記録における第２モーダルデータが含まれる。ソーシャルセッションの履歴セッション記録には、異なるモーダルのデータ、例えば、画像、動画、テキスト、オーディオ等が含まれてもよく、セッションオブジェクトは、異なるモーダルのデータを選択してチェックすることができ、ここで、履歴セッション記録に対するチェックは主に、第２モーダルデータに対するチェックであり、よって、セッション記録詳細インターフェースに展示されるのは、履歴セッション記録で生成された第２モーダルデータである。

【0089】

なお、第２モーダルデータの数が少ないと、第２モーダルデータは、セッション記録詳細インターフェースに全表示することができ、第２モーダルデータの数が多いと、現在のセッション記録詳細インターフェースに表示されるのは、第２モーダルデータの一部である。例示的には、第２モーダルデータは画像であり、セッション記録詳細インターフェースは具体的にチャットフォトウォールであり、表示される画像は同等のサイズで１２枚表示でき、履歴セッション記録におけるすべての画像が１０枚あるならば、セッション記録詳細インターフェースに全表示することができ、１２枚を超えると、多くとも１２枚表示され、他の画像をチェックする場合、例えば、下へスライドする操作を実行して展示する必要があり、その後、セッション記録詳細インターフェースにおいて、第１モーダルデータで第２モーダルデータを検索し、第１モーダルデータにマッチングする第２モーダルデータ、即ち、クロスモーダル検索結果を出力することをサポートできる。

【0090】

図８ａを参照すると、本願の実施例が提供する、履歴セッション記録に対するチェックの操作概略図である。図８ａにおける（１）のセッションインターフェース８１０には、履歴セッション記録を探すエントリ、即ち、「チャット内容を探す」が提供され、当該エントリをトリガすると、図８ａにおける（２）に示すような履歴セッション記録検索インターフェース８１１に入ることができ、この履歴セッション記録検索インターフェースにおいて、相応する検索タイプを選択するとともに、当該検索タイプの履歴セッション記録を全表示することができ、例えば、写真と動画を選択する場合、セッション記録詳細インターフェースに８１２にチャットフォトウォールを展示し、それに、チャットフォトウォールは、日付に応じて展示されるすべての写真と動画であり、具体的には図８ａにおける（３）のようにし、当該セッション記録詳細インターフェース８１２は、写真又は動画の検索を便利にさせるように、検索ボックス８１２０を提供する。

【0091】

１つの実施例では、ソーシャルセッションの履歴セッション記録における第２モーダルデータは、第２モーダルデータベースに記憶され、かつ第２モーダルデータベースには第２モーダルデータの属性情報が記憶されている。履歴セッション記録における第２モーダルデータを第２モーダルデータベースに分けて記憶することにより、第２モーダルデータに対する検索を開始する場合、グローバルな履歴セッション記録から探すことなく、直接に当該第２モーダルデータベースから探すことができ、第２モーダルデータの検索効率をアップすることに有利であり、同時に第２モーダルデータベースには第２モーダルデータの属性情報が記憶されており、属性情報の異なりにより、さらに検索次元を拡張することができる。

【0092】

属性情報は、カテゴリラベルと、第２モーダルデータに関連付けられた第１モーダル記述情報と、第２モーダルデータから認識された第１モーダル記述情報と、の少なくとも１つを含む。カテゴリラベルは、手動又は機器（例えば、分類モデル）で第２モーダルデータを分類することによって生成されるアノテーション情報であってもよく、第１モーダル記述情報は、第２モーダルデータに関する記述情報であり、具体的には、第２モーダルデータから認識されたものであってもよいし、履歴セッション記録から生成された、それに関連付けられたものであってもよい。例示的には、第２モーダルデータは画像であり、履歴セッション記録における画像が、テキストを含む画像である場合、画像を認識することで当該画像中のテキストを取得するとともに、それを第１モーダル記述情報とすることができ、ソーシャルセッションのセッションオブジェクトが画像を送信した直後に、当該画像に対するテキスト記述情報、例えば、「ほら、Ａパークはすごく変わった」との情報を送信すると、それでは、当該テキスト記述情報に応じて、当該画像に関する記述を生成することができ、例えば、キーワードである「Ａパーク」を画像の第１モーダル記述情報として抽出する。

【0093】

Ｓ７０３、セッション記録詳細インターフェースに入力された第１モーダルデータに応答して、第１モーダルデータに対応するクロスモーダル検索結果を出力する。

【0094】

クロスモーダル検索結果は、上記実施例で紹介したクロスモーダル検索方法を採用して得られたものであり、出力されるクロスモーダル検索結果は、セッション記録詳細インターフェースに入力された第１モーダルデータにマッチングするすべての第２モーダルデータを含む。

【0095】

１つの実施例では、第１モーダルデータはテキストであり、第２モーダルデータは画像であり、セッション記録詳細インターフェースには検索ボックスが含まれ、第１モーダルデータは、検索ボックスに入力して得られたものであり、又は、セッション記録詳細インターフェースにはさらに、少なくとも１つの推薦テキストが含まれ、第１モーダルデータは、少なくとも１つの推薦テキストから選択することによって得られたものである。つまり、セッション記録詳細インターフェースに入力された第１モーダルデータは、入力デバイス（例えば、物理／仮想キーボード、スマート音声デバイス）等を介して手動で検索ボックスに入力されたものであってもよいし、セッション記録詳細インターフェースから提供される推薦テキストから選択されたものであってもよい。選択可能に、選択された推薦テキストは、自動的に検索ボックスに充填され、自動的に検索機能を起動することができる。セッション記録詳細インターフェースにおける推薦テキストは、ランダムに生成されたものであってもよいし、第２モーダルデータの属性情報又は第２モーダルデータのセマンティック特徴に応じて生成されたものであってもよい。上記クロスモーダル検索方法の技術的サポートにより、検索ボックスに入力されたテキストは、直感的な表現を満たす画像記述であってもよい。簡単に言えば、文字ベースの画像検索を例として、セッションオブジェクトが検索ボックスで検索する場合、検索テキストにマッチングするカテゴリラベルの画像を第２モーダルデータベースでクエリしてリコールすることができ、同時に、クロスモーダル検索モデルにおけるテキストエンコーダを介して検索テキストを処理することができ、対応するテキスト特徴ベクトルを出力し、画像特徴ベクトル探索セットから類似する画像特徴ベクトルを探索し、対応する画像集合をリコールし、最終的にすべてのリコールされた画像をマージしてセッションオブジェクトに展示する。

【0096】

例示的には、図８ｂを参照すると、本願の実施例が提供するクロスモーダル検索の操作概略図であり、図８ｂにおける（１）に示すように、セッション記録詳細インターフェースは検索ボックス８２２０を提供し、当該検索ボックス８２２０には、検索が画像記述又は図内文字の入力をサポートすることが提示され、画像記述は、画像に含まれる内容へのセマンティック解釈であり、図内文字は、画像の内容情報に属する。なお、図８ｂにおける「チケット」、「スクリーンショット」等のような、自動的に生成された推薦テキストも、当該セッション記録詳細インターフェースに展示され、推薦テキストにより、より多くの参照、利便な操作を提供することができる。検索ボックス８２２０にクエリテキストを入力して検索機能をトリガする場合、検索結果インターフェースを出力し、当該クエリテキストにマッチングする写真を検索結果インターフェースに展示することができ、図８ｂにおける（２）に示すように、検索結果インターフェース８２３に展示されるのは、入力されたクエリテキストの「食べ物」にマッチングする３枚の写真であり、クロスモーダル検索結果に属する。

【0097】

１つの実施例では、さらに、第１検索規則に対する選択に応答して、クロスモーダル検索結果のうち、第１モーダルデータの内容情報にマッチングする第２モーダルデータを出力し、又は、第２検索規則に対する選択に応答して、クロスモーダル検索結果のうち、第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを出力するようにしてもよい。

【0098】

第１検索規則、第２検索規則は、異なる次元から検索する規則であり、異なる次元に応じて検索することができ、また、全部のクロスモーダル検索結果を異なる検索次元に応じて分けて表示することができる。第１検索規則に応じて検索することは、第１モーダルデータの内容情報にマッチングする第２モーダルデータを取得して出力することができ、第２検索規則に応じて検索することは、第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを取得して出力することができる。つまり、単一の検索次元を指定でき、例えば、第１モーダルデータがテキストであり、第２モーダルデータが画像である場合、画像による検索、文字による検索ができ、画像による検索は具体的に、画像の記述に応じて検索することを指し、即ち、画像のセマンティック情報という次元にマッチングすることにより検索し、文字による検索は具体的に、図内文字に応じて検索することを指し、即ち、画像の内容情報という次元にマッチングすることにより検索する。

【0099】

例示的には、図８ｃを参照すると、本願の実施例が提供する、クロスモーダル検索結果を出力する効果概略図である。図８ｃに示すように、図８ｂにおける（２）が提供するクロスモーダル検索結果に基づいて展示される、クエリテキストにマッチングする全部の写真であり、異なる検索次元に応じて検索して得られたものである。画像による検索、又は文字による検索を選択する場合、異なるクロスモーダル検索結果を呈示し、それぞれに図８ｃにおける（１）、図８ｃにおける（２）に示すようであり、当該検索結果インターフェースにおいて、テキストのセマンティック情報が画像のセマンティック情報にマッチングする写真、又はテキストの内容情報が画像の属性情報（例えば、画像のカテゴリラベル）にマッチングする写真を展示することができる。本手段は、多種のシーンに適用されることができ、本実施例が紹介する、ソーシャルセッションの履歴セッション記録に基づくクロスモーダル検索以外に、マルチメディアデータ検索をサポートする他のシーン、例えば、ショートビデオ検索のシーンに適用されることもでき、これに対して制限しない。

【0100】

本願の実施例が提供するクロスモーダル検索手段は、ソーシャルセッションの履歴セッション記録におけるクロスモーダル検索シーンをサポートでき、具体的には、図文クロスモーダル検索のシーンに適用されることができ、即ち、検索ボックスに検索語を入力することでターゲット写真を検索し、クロスモーダル検索が検索語の複数の次元から検索するため、検索語は、写真のカテゴリラベルに完全にマッチングしなくても、相応する写真を見つけることができ、よって、より直感的な表現を満たす、より多様で複雑な画像記述を入力することでターゲット写真を探すことは、入力の自由度をアップできるだけでなく、ターゲット写真を検索する確率を大幅にアップし、クロスモーダル検索結果の多様性を向上させることもでき、なお、推薦テキスト（例えば、推薦する検索語）を提供することにより、ある程度に検索効率をアップすることもできる。

【0101】

図９を参照すると、図９は本願の実施例が提供するクロスモーダル検索装置の構造概略図である。上記クロスモーダル検索装置は、コンピュータデバイスで実行される１つのコンピュータプログラム（プログラムコードを含む）であってもよく、例えば、当該クロスモーダル検索装置は１つのアプリケーションソフトウェアであり、当該クロスモーダル検索装置は、本願の実施例が提供する方法の相応するステップを実行するために用いられてもよい。図９に示すように、当該クロスモーダル検索装置９００は、取得モジュール９０１と、検索モジュール９０２と、マージモジュール９０３と、を含んでもよい。
取得モジュール９０１は、第１モーダルデータを取得するために用いられ、
検索モジュール９０２は、第１モーダルデータの内容情報に基づいて第２モーダルデータベースで検索し、第１集合を取得するために用いられ、第１集合には、第１モーダルデータの内容情報にマッチングする少なくとも１つの第２モーダルデータが含まれ、
検索モジュール９０２はさらに、第１モーダルデータのセマンティック情報に基づいて第２モーダルデータベースで検索し、第２集合を取得するために用いられ、第２集合には、第１モーダルデータのセマンティック情報にマッチングする少なくとも１つの第２モーダルデータが含まれ、
マージモジュール９０３は、第１集合と第２集合とをマージし、第１モーダルデータに対応するクロスモーダル検索結果を取得するために用いられる。

【0102】

１つの実施例では、第２モーダルデータベースにはＮ個の第２モーダルデータ、及びＮ個の第２モーダルデータの各自の属性情報が記憶されており、Ｎは正の整数であり、検索モジュール９０２は具体的に、前記Ｎ個の第２モーダルデータのうちの各第２モーダルデータについて、第１モーダルデータの内容情報と当該第２モーダルデータの属性情報との間のマッチング度を、前記第２モーダルデータに対応するマッチング度として決定し、対応するマッチング度がマッチング条件を満たす第２モーダルデータを第１集合に追加するために用いられる。

【0103】

１つの実施例では、属性情報は第１モーダル記述情報を含み、Ｎ個の第２モーダルデータのうちのいずれか１つは、第ｉ個の第２モーダルデータとして示し、ｉは正の整数であり、かつｉはＮ以下であり、検索モジュール９０２は具体的に、第１モーダルデータの内容情報と第ｉ個の第２モーダルデータの第１モーダル記述情報との間のセマンティック類似度を、前記第ｉ個の第２モーダルデータに対応するマッチング度として決定し、第１モーダルデータの内容情報と第ｉ個の第２モーダルデータの第１モーダル記述情報との間のセマンティック類似度が第１類似閾値よりも大きいと、第ｉ個の第２モーダルデータを第１集合に追加するために用いられる。

【0104】

１つの実施例では、属性情報はカテゴリラベルを含み、Ｎ個の第２モーダルデータのうちのいずれか１つは、第ｉ個の第２モーダルデータとして示し、ｉは正の整数であり、かつｉはＮ以下であり、検索モジュール９０２は具体的に、第１モーダルデータの内容情報と第ｉ個の第２モーダルデータのカテゴリラベルとの間の類似度を、前記第ｉ個の第２モーダルデータに対応するマッチング度として決定し、第１モーダルデータの内容情報と第ｉ個の第２モーダルデータのカテゴリラベルとの間の類似度が第２類似閾値よりも大きいと、第ｉ個の第２モーダルデータを第１集合に追加するために用いられる。

【0105】

１つの実施例では、第２モーダルデータベースにはＮ個の第２モーダルデータが記憶されており、第２モーダルデータベースは、Ｎ個の第２モーダルデータの各自のセマンティック特徴が記憶されている第２モーダル特徴ライブラリと関連付けられており、検索モジュール９０２は具体的に、さらに、第１モーダルデータのセマンティック特徴を取得し、第１モーダルデータのセマンティック特徴に基づいて、第１モーダルデータのセマンティック特徴にマッチングするターゲットセマンティック特徴を第２モーダル特徴ライブラリで探し、ターゲットセマンティック特徴に応じて、第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを第２モーダルデータベースで決定し、第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを第２集合に追加するために用いられる。

【0106】

１つの実施例では、第２モーダル特徴ライブラリと第２モーダルデータベースとは、特徴インデックスによって関連付けられ、検索モジュール９０２は具体的に、ターゲットセマンティック特徴の特徴インデックスを決定し、ターゲットセマンティック特徴の特徴インデックスに基づいて、ターゲットセマンティック特徴の特徴インデックスに対応する第２モーダルデータを第２モーダルデータベースで決定するために用いられる。

【0107】

１つの実施例では、第２モーダル特徴ライブラリに記憶されたＮ個の第２モーダルデータの各自のセマンティック特徴は、クロスモーダル検索モデルにおける第２モーダル処理ネットワークを通じてＮ個の第２モーダルデータに対してそれぞれに特徴抽出処理を行って得られたものであり、クロスモーダル検索モデルはさらに、第１モーダル処理ネットワークを含み、検索モジュール９０２は具体的に、クロスモーダル検索モデルにおける第１モーダル処理ネットワークを通じて、第１モーダルデータに対して特徴抽出処理を行い、第１モーダルデータのセマンティック特徴を取得するために用いられる。

【0108】

１つの実施例では、第２モーダル処理ネットワークは、特徴抽出ネットワーク、プーリング処理ネットワーク、及び特徴統合ネットワークを含み、Ｎ個の第２モーダルデータのうちのいずれか１つは、第ｉ個の第２モーダルデータとして示し、ｉは正の整数であり、かつｉはＮ以下であり、検索モジュール９０２は具体的に、第２モーダル処理ネットワークにおける特徴抽出ネットワークを通じて、第ｉ個の第２モーダルデータの初期特徴を抽出し、第２モーダル処理ネットワークにおけるプーリング処理ネットワークを通じて、初期特徴に対してプーリング処理を行い、第ｉ個の第２モーダルデータのプーリング特徴を取得し、特徴統合ネットワークを通じて、プーリング特徴に対して統合処理を行い、第ｉ個の第２モーダルデータのセマンティック特徴を取得するために用いられる。

【0109】

１つの実施例では、第２モーダル処理ネットワークはさらに、分類ネットワークを含み、検索モジュール９０２は具体的に、さらに、分類ネットワークを通じて、プーリング特徴に基づいて分類予測処理を行い、第ｉ個の第２モーダルデータのカテゴリラベルを取得し、第ｉ個の第２モーダルデータのカテゴリラベルを第２モーダルデータベースに追加するために用いられる。

【0110】

１つの実施例では、当該クロスモーダル検索装置はさらにトレーニングモジュール９０４を含み、クロスモーダルトレーニングデータセットを取得し、クロスモーダルトレーニングデータセットは、複数組のクロスモーダルサンプルデータを含み、各組のクロスモーダルサンプルデータは、第２モーダルサンプルデータ、第１モーダルサンプルデータ、及び第２モーダルサンプルデータと第１モーダルサンプルデータとの間のマッチング結果を含み、クロスモーダル検索モデルにおける第１モーダル処理ネットワークを通じて、クロスモーダルサンプルデータのうちの第１モーダルサンプルデータに対して特徴抽出処理を行い、第１モーダルサンプルデータのセマンティック特徴を取得し、クロスモーダル検索モデルにおける第２モーダル処理ネットワークを通じて、クロスモーダルサンプルデータのうちの第２モーダルサンプルデータに対して特徴抽出処理を行い、第２モーダルサンプルデータのセマンティック特徴を取得し、第１モーダルサンプルデータのセマンティック特徴と第２モーダルサンプルデータのセマンティック特徴との間のクロスモーダルコントラスト損失に応じて、クロスモーダル検索モデルに対して反復トレーニングを行い、トレーニングされたクロスモーダル検索モデルを取得するために用いられる。

【0111】

本願の実施例に記述のクロスモーダル検索装置の各機能モジュールの機能は、上記方法実施例における方法に応じて具体的に実現でき、その具体的な実現過程について、上記方法実施例の関連記述を参照可能であり、ここでは贅言しない。また、同じ方法を採用する有益な効果の記述に対しても、さらに贅言しない。

【0112】

図１０を参照すると、図１０は本願の実施例が提供する別のクロスモーダル検索装置の構造概略図である。上記クロスモーダル検索装置は、コンピュータデバイスで実行される１つのコンピュータプログラム（プログラムコードを含む）であってもよく、例えば、当該クロスモーダル検索装置は１つのアプリケーションソフトウェアであり、当該クロスモーダル検索装置は、本願の実施例が提供する方法の相応するステップを実行するために用いられてもよい。図１０に示すように、当該クロスモーダル検索装置１０００は、表示モジュール１００１と、出力モジュール１００２と、を含んでもよい。
表示モジュール１００１は、ソーシャルセッションのセッションインターフェースを表示するために用いられ、
表示モジュール１００１はさらに、ソーシャルセッションの履歴セッション記録に対するチェックに応答して、セッション記録詳細インターフェースを表示するために用いられ、セッション記録詳細インターフェースには、ソーシャルセッションの履歴セッション記録における第２モーダルデータが含まれ、
出力モジュール１００２は、セッション記録詳細インターフェースに入力された第１モーダルデータに応答して、第１モーダルデータに対応するクロスモーダル検索結果を出力するために用いられ、クロスモーダル検索結果は、本願の実施例に記述のクロスモーダル検索方法を採用して得られたものである。

【0113】

１つの実施例では、ソーシャルセッションの履歴セッション記録における第２モーダルデータは、第２モーダルデータベースに記憶され、かつ第２モーダルデータベースには第２モーダルデータの属性情報が記憶されており、属性情報は、カテゴリラベルと、第２モーダルデータに関連付けられた第１モーダル記述情報と、第２モーダルデータから認識された第１モーダル記述情報と、の少なくとも１つを含む。

【0114】

【0115】

１つの実施例では、出力モジュール１００２は具体的に、第１検索規則に対する選択に応答して、クロスモーダル検索結果のうち、第１モーダルデータの内容情報にマッチングする第２モーダルデータを出力し、又は、第２検索規則に対する選択に応答して、クロスモーダル検索結果のうち、第１モーダルデータのセマンティック情報にマッチングする第２モーダルデータを出力するために用いられる。

【0116】

【0117】

なお、図９のクロスモーダル検索装置、図１０のクロスモーダル検索装置は、同じコンピュータデバイスに配置されてもよいし、異なるコンピュータデバイスに配置されてもよい。同じコンピュータデバイスに配置される場合、コンピュータデバイスは、入力された第１モーダルデータに応じて自動的にデータベースから、第１モーダルデータにマッチングする第２モーダルデータを検索し、クロスモーダル検索結果を取得することができ、さらにコンピュータデバイスでクロスモーダル検索結果を出力し、異なるコンピュータデバイスに配置される場合、仮に図９のクロスモーダル検索装置がコンピュータデバイスＡに配置され、図１０のクロスモーダル検索装置がコンピュータデバイスＢに配置されるならば、コンピュータデバイスＢは、入力された第１モーダルデータを受信し当該第１モーダルデータをコンピュータデバイスＡに送信する役割を果たし、さらにコンピュータデバイスＡは、第１モーダルデータに基づいて第２モーダルデータベースで、第１モーダルデータにマッチングする第２モーダルデータを検索し、クロスモーダル検索結果を取得するとともに、当該クロスモーダル検索結果をコンピュータデバイスＢに送信し、コンピュータデバイスＢはクロスモーダル検索結果を展示する。

【0118】

図１１を参照すると、図１１は本願の実施例が提供するコンピュータデバイスの構造概略図である。当該コンピュータデバイス１１００は、独立したデバイス（例えば、サーバ、ノード、端末等のうちの１つ又は複数）を含んでもよいし、独立したデバイス内部の部材（例えば、チップ、ソフトウェアモジュール又はハードウェアモジュール等）を含んでもよい。当該コンピュータデバイス１１００は、少なくとも１つのプロセッサ１１０１及び通信インターフェース１１０２を含むことができ、さらに選択可能に、コンピュータデバイス１１００はさらに、少なくとも１つのメモリ１１０３及びバス１１０４を含むことができる。プロセッサ１１０１、通信インターフェース１１０２及びメモリ１１０３はバス１１０４を介して接続される。

【0119】

プロセッサ１１０１は、算術演算及び／又は論理演算を行うモジュールであり、具体的には、中央処理ユニット（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）、グラフィックス処理ユニット（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＧＰＵ）、マイクロプロセッサー（ｍｉｃｒｏｐｒｏｃｅｓｓｏｒｕｎｉｔ、ＭＰＵ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）、複合プログラマブルロジックデバイス（Ｃｏｍｐｌｅｘｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ、ＣＰＬＤ）、コプロセッサ（中央処理ユニットが相応する処理及びアプリケーションを完了するのを支援する）、マイクロコントロールユニット（ＭｉｃｒｏｃｏｎｔｒｏｌｌｅｒＵｎｉｔ、ＭＣＵ）等の処理モジュールのうちの１種又は多種の組み合わせであってもよい。

【0120】

通信インターフェース１１０２は、少なくとも１つのプロセッサのために情報の入力又は出力を提供するために用いられてもよい。及び／又は、通信インターフェース１１０２は、外部から送信されたデータを受信し、及び／又は外部にデータを送信するために用いられてもよく、イーサネットケーブル等のようなものを含む有線リンクインターフェースであってもよいし、無線リンク（Ｗｉ－Ｆｉ、ブルートゥース、汎用無線伝送、車載近距離通信技術及び他の近距離無線通信技術等）インターフェースであってもよい。

【0121】

メモリ１１０３は、記憶空間を提供するために用いられ、記憶空間には、操作システム及びコンピュータプログラム等のデータが記憶されてもよい。メモリ１１０３は、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）、読み取り専用メモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ、ＥＰＲＯＭ）、又はポータブルコンパクトディスクリードオンリーメモリ（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＣＤ－ＲＯＭ）等のうちの１種又は多種の組み合わせであってもよい。

【0122】

上記のクロスモーダル検索方法、例えば、上記図２、図３及び図７に示す実施例に記述されたクロスモーダル検索方法を実行するために、当該コンピュータデバイス１１００の少なくとも１つのプロセッサ１１０１は、少なくとも１つのメモリ１１０３に記憶されたコンピュータプログラムを呼び出すために用いられる。

【0123】

本願の実施例に記述されたコンピュータデバイス１１００は、前文に対応する実施例の当該クロスモーダル検索方法に対する記述を実行してもよいし、前文の図９に対応する実施例の当該クロスモーダル検索装置９００に対する記述、又は図１０に対応する実施例の当該クロスモーダル検索装置１０００に対する記述を実行してもよく、ここでは贅言しない。また、同じ方法を採用する有益な効果の記述に対しても、さらに贅言しない。

【0124】

なお、本願の１つの例示的な実施例はさらに、記憶媒体を提供し、当該記憶媒体には、上記クロスモーダル検索方法のコンピュータプログラムが記憶されており、当該コンピュータプログラムはプログラム命令を含み、１つ又は複数のプロセッサが当該プログラム命令をロードして実行する場合、実施例のクロスモーダル検索方法に対する記述を実現でき、ここでは贅言しなく、同じ方法を採用する有益な効果の記述に対しても、ここでは贅言しない。なお、プログラム命令は、１つ、又は相互に通信可能な複数のコンピュータデバイスに配置されて実行されてもよい。

【0125】

上記コンピュータ可読記憶媒体は、上記いずれかの実施例が提供するクロスモーダル検索装置又は上記コンピュータデバイスの内部記憶ユニット、例えば、コンピュータデバイスのハードディスク又は内部メモリであってもよい。当該コンピュータ可読記憶媒体は、当該コンピュータデバイスの外部記憶デバイス、例えば、当該コンピュータデバイスに搭載されたプラグインハードディスク、スマートメディアカード（ｓｍａｒｔｍｅｄｉａｃａｒｄ、ＳＭＣ）、セキュアデジタル（ｓｅｃｕｒｅｄｉｇｉｔａｌ、ＳＤ）カード、フラッシュカード（ｆｌａｓｈｃａｒｄ）等であってもよい。さらには、当該コンピュータ可読記憶媒体はさらに、当該コンピュータデバイスの内部記憶ユニットを含むとともに、外部記憶デバイスも含むことができる。当該コンピュータ可読記憶媒体は、当該コンピュータプログラム及び当該コンピュータデバイスに必要な他のプログラム、データを記憶するために用いられる。当該コンピュータ可読記憶媒体はさらに、既に出力された、又は出力される予定のあるデータを一時的に記憶するために用いられてもよい。

【0126】

本願の１つの態様は、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ可読記憶媒体に記憶されるコンピュータ命令を含む。コンピュータデバイスのプロセッサは、コンピュータ可読記憶媒体から当該コンピュータ命令を読み取り、プロセッサは当該コンピュータ命令を実行することにより、本願の実施例における一態様が提供する方法を当該コンピュータデバイスに実行させる。

【0127】

本願の１つの態様は、別のコンピュータプログラム製品を提供し、当該コンピュータプログラム製品は、コンピュータプログラム又はコンピュータ命令を含み、当該コンピュータプログラム又はコンピュータ命令はプロセッサによって実行される場合、本願の実施例が提供するクロスモーダル検索方法のステップを実現する。

【0128】

以上の開示内容は、本願の好ましい実施例にすぎず、当然に本願の権利範囲をこれにより限定することができず、よって、本願の請求項に応じて行われる均等な変化はいずれも、本願に含まれる範囲に属する。

【符号の説明】

【0129】

１０１データベース
１０２クロスモーダル検索デバイス
８１０セッションインターフェース
８１１履歴セッション記録検索インターフェース
８１２セッション記録詳細インターフェース
８２３検索結果インターフェース
９００クロスモーダル検索装置
９０１取得モジュール
９０２検索モジュール
９０３マージモジュール
９０４トレーニングモジュール
１０００クロスモーダル検索装置
１００１表示モジュール
１００２出力モジュール
１１００コンピュータデバイス
１１０１プロセッサ
１１０２通信インターフェース
１１０３メモリ
１１０４バス
８１２０検索ボックス
８２２０検索ボックス

【図1】

【図2】

【図3】

【図4a】

【図4b】

【図5】

【図6】

【図7】

【図8a】

【図8b】

【図8c】

【図9】

【図10】

【図11】

【手続補正書】

【提出日】2024-05-30

【手続補正2】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

前記第２モーダルデータベースにはＮ個の第２モーダルデータ、及び前記Ｎ個の第２モーダルデータの各自の属性情報が記憶されており、Ｎは正の整数であり、
前記第１モーダルデータの内容情報に基づいて第２モーダルデータベースで検索し、第１集合を取得する前記ステップは、
前記Ｎ個の第２モーダルデータのうちの各第２モーダルデータについて、前記第１モーダルデータの内容情報と前記第２モーダルデータの属性情報との間のマッチング度を、前記第２モーダルデータに対応するマッチング度として決定するステップと、
対応するマッチング度がマッチング条件を満たす第２モーダルデータを前記第１集合に追加するステップと、を含む、
ことを特徴とする請求項１に記載の方法。

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【請求項16】

【請求項17】

【請求項18】

コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータプログラム又はコンピュータ命令を含み、前記コンピュータプログラム又はコンピュータ命令はプロセッサによって実行される場合、請求項１～１４のいずれか１項に記載のクロスモーダル検索方法のステップを実現する、
ことを特徴とするコンピュータプログラム。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版