(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-22
(45)【発行日】2022-12-01
(54)【発明の名称】検索方法及び検索装置、記憶媒体
(51)【国際特許分類】
G06F 16/48 20190101AFI20221124BHJP
【FI】
G06F16/48
(21)【出願番号】P 2021521293
(86)(22)【出願日】2019-11-13
(86)【国際出願番号】 CN2019118196
(87)【国際公開番号】W WO2021056750
(87)【国際公開日】2021-04-01
【審査請求日】2021-04-16
(31)【優先権主張番号】201910934892.5
(32)【優先日】2019-09-29
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】321006888
【氏名又は名称】ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】熊宇
(72)【発明者】
【氏名】黄青▲ちう▼
(72)【発明者】
【氏名】郭凌峰
(72)【発明者】
【氏名】周航
(72)【発明者】
【氏名】周博磊
(72)【発明者】
【氏名】林▲達▼▲華▼
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】特開2019-008684(JP,A)
【文献】特開2016-081265(JP,A)
【文献】特開2012-118756(JP,A)
【文献】特開2008-112432(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
電子機器によって実行される検索方法であって、
テキストと少なくとも1つのビデオとの間の第1類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第1人物インタラクティブグラフ
および前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することと、
前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定することと、
各ビデオの前記第1類似度
および前記第2類似度
に対して加重加算を行い、各ビデオの類似度値を得ることと、
前記少なくとも1つのビデオから、
類似度値が最も高いビデオを前記検索条件に合致するビデオ
として決定すること
と
を含む、検索方法。
【請求項2】
前記テキストと少なくとも1つのビデオとの間の第1類似度を決定することは、
前記テキストのパラグラフ特徴を決定することと、
前記少なくとも1つのビデオのビデオ特徴を決定することと、
前記テキストのパラグラフ特徴
および前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定すること
と
を含む
、請求項1に記載の検索方法。
【請求項3】
前記パラグラフ特徴は、センテンス特徴
およびセンテンスの数を含み、前記ビデオ特徴は、ショット特徴
およびショットの数を含む
、請求項2に記載の検索方法。
【請求項4】
前記テキストの第1人物インタラクティブグラフを決定することは、
前記テキストに含まれる人名を検出することと、
データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、
前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、
各前記人物に対応するキャラクターノードと動作ノードを接続すること
と
を含み、
前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される
、請求項1
~3のうちいずれか一項に記載の検索方法。
【請求項5】
前記検索方法は、同一の動作ノードに接続されるキャラクターノードを相互接続することを更に含む
、請求項4に記載の検索方法。
【請求項6】
前記テキストに含まれる人名を検出することは、
前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを含む
、請求項4
または請求項5に記載の検索方法。
【請求項7】
前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
前記少なくとも1つのビデオの各ショットにおける人物を検出することと、
前記人物の人体特徴
および動き特徴を抽出することと、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、
各人物に対応するキャラクターノードと動作ノードを接続すること
と
を含む
、請求項1
~6のうちいずれか一項に記載の検索方法。
【請求項8】
前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは
、
1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続することを更に含む
、請求項7に記載の検索方法。
【請求項9】
前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続することを更に含む
、請求項7
または請求項8に記載の検索方法。
【請求項10】
前記検索方法は、検索ネットワークにより実現し、
前記検索ネットワークは、第1サブネットワークおよび第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成されており、前記第2サブネットワークは、前記テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成されており、
前記検索方法は、
テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度
予測値を決定することと、
前記第1類似度予測値
および前記第1類似度の真値に基づいて、前記第1類似度の損失を決定することと、
前記第2類似度予測値
および前記第2類似度の真値に基づいて、前記第2類似度の損失を決定することと、
前記第1類似度の損失
および前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整すること
と
を更に含む
、請求項1
~9のうちいずれか一項に記載の検索方法。
【請求項11】
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、
前記合計損失値に基づいて、前記第1サブネットワーク
および前記第2サブネットワークの重みパラメータを調整することを含む
、請求項
10に記載の検索方法。
【請求項12】
検索装置であって、
テキストと少なくとも1つのビデオとの間の第1類似度を決定するように構成され
ている第1決定モジュールであって、前記テキストは、検索条件を表すためのものである、第1決定モジュールと、
前記テキストの第1人物インタラクティブグラフ
および前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定
することと、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定する
こととを行うように構成され
ている第2決定モジュールと、
各ビデオの前記第1類似度
および前記第2類似度
に対して加重加算を行い、各ビデオの類似度値を得ることと、前記少なくとも1つのビデオから、
類似度値が最も高いビデオを前記検索条件に合致するビデオ
として決定する
こととを行うように構成され
ている処理モジュール
と
を備える、検索装置。
【請求項13】
メモリ
とプロセッサ
とを備えた検索装置であって、前記メモリ
には、前記プロセッサ
によって実行可能であるコンピュータプログラム
が記憶されており、前記プロセッサ
は、前記
コンピュータプログラムを実行
することにより、請求項1
~11のうちいずれか一項に記載の検索方法を実行するように構成され
ている、検索装置。
【請求項14】
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサに
よって実行されると
、請求項1
~11のうちいずれか一項に記載の検索方法を実行
することを前記プロセッサに行わせる、コンピュータ
読み取り可能な記憶媒体。
【請求項15】
コンピュータプログラムであって、前記コンピュータプログラムは、プロッセッサによって実行されると
、請求項1
~11のうちいずれか一項に記載の検索方法を実行
することを前記プロセッサに行わせる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2019年09月29日に提出された、出願番号が201910934892.5号である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
【0002】
本願は、コンピュータビジョン技術分野に関し、具体的には検索方法及び検索装置、記憶媒体に関する。
【背景技術】
【0003】
実生活において、テキスト記述に基づいて、ビデオデータベースからテキスト記述に合致するビデオを検索する機能は、広く求められている。従来の検索方法は一般的には、文字を単語ベクトルに符号化すると同時に、ビデオをビデオ特徴ベクトルに符号化する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願は、検索方法の技術的解決手段を提供する。
【課題を解決するための手段】
【0005】
本願の第1態様によれば、検索方法を提供する。前記検索方法は、テキストと少なくとも1つのビデオとの間の第1類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することと、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定することと、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することと、を含む。
【0006】
このように、従来の、特徴に基づく検索アルゴリズムに比べて、本願は、テキストと少なくとも1つのビデオとの間の第1類似度、前記テキストの第1人物インタラクティブグラフと前記少なくとも1つのビデオの第2人物インタラクティブグラフとの間の第2類似度を決定することで、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行うことができ、テキスト記述に基づいて、映画のようなビデオを検索する正確率を向上させることができる。
【0007】
可能な実現形態において、テキストと少なくとも1つのビデオとの間の第1類似度を決定することは、前記テキストのパラグラフ特徴を決定することと、前記少なくとも1つのビデオのビデオ特徴を決定することと、前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定することと、を含む。
【0008】
このように、テキストのパラグラフ特徴及びビデオのビデオ特徴を分析して第1類似度を決定することで、ビデオとテキストとの直接的に合致した類似度を得て、後続で、検索条件に合致するビデオの決定のための参考となる根拠を提供することができる。
【0009】
可能な実現形態において、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含む。
【0010】
このように、センテンス特徴及びセンテンスの数をテキストのパラグラフ特徴とし、ショット特徴及びショットの数をビデオのビデオ特徴とすることで、テキスト及びビデオに対して量子化を行い、更に、テキストのパラグラフ特徴及びビデオのビデオ特徴の分析のための根拠を提供することができる。
【0011】
可能な実現形態において、前記テキストの第1人物インタラクティブグラフを決定することは、前記テキストに含まれる人名を検出することと、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、各前記人物に対応するキャラクターノードと動作ノードを接続することと、を含み、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。
【0012】
テキストにおけるセンテンスは一般的には、イベントにおけるシナリオと類似した順番に従う。各テキストはいずれもビデオにおける1つのイベントを記述する。このように、テキストの人物インタラクティブグラフを構築することで、ビデオの叙事構造を捕捉し、後続で、検索条件に合致するビデオを決定するための参考となる根拠を提供する。
【0013】
可能な実現形態において、前記検索方法は、同一の動作ノードに接続されるキャラクターノードを相互接続することを更に含む。
【0014】
このように、テキストの人物インタラクティブグラフをより好適に構築し、更に、ビデオの叙事構造をより好適に捕捉することに寄与する。
【0015】
可能な実現形態において、前記テキストに含まれる人名を検出することは、前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを含む。
【0016】
このように、テキストにおける、非人名で表される人物の見落としを防止し、テキストで記述された全ての人物に対して分析を行い、更に、テキストの人物インタラクティブグラフを決定する正確率を更に向上させることができる。
【0017】
可能な実現形態において、前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、前記少なくとも1つのビデオの各ショットにおける人物を検出することと、前記人物の人体特徴及び動き特徴を抽出することと、前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、各人物に対応するキャラクターノードと動作ノードを接続することと、を含む。
【0018】
このように、人物間の相互作用は、しばしばテキストで記述され、キャラクター間のインタラクションは、ビデオストーリーにおいて重要な役割を演じている。この観点に基づいて、本願は、グラフで表される人物インタラクティブグラフに基づいて、ビデオの人物インタラクティブグラフとテキストの人物インタラクティブグラフとの類似度を決定することで、後続で、検索条件に合致するビデオを決定するための参考となる根拠を提供する。
【0019】
可能な実現形態において、前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続することを更に含む。
【0020】
このように、ビデオの人物インタラクティブグラフをより好適に構築し、更に、ビデオの叙事構造をより好適に捕捉することに寄与する。
【0021】
可能な実現形態において、前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続することを更に含む。
【0022】
このように、ビデオの人物インタラクティブグラフをより好適に構築し、更に、ビデオの叙事構造をより好適に捕捉することに寄与する。
【0023】
可能な実現形態において、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することは、各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定することと、を含む。
【0024】
このように、第1類似度及び第2類似度により、検索条件に合致するビデオを決定することで、テキスト記述に基づいてビデオを検索する正確率を向上させることができる。
【0025】
可能な実現形態において、前記検索方法は、検索ネットワークにより実現し、前記検索方法は、テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定することと、前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定することと、前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定することと、前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと、を更に含む。
【0026】
このように、検索ネットワークにより検索を実現することで、テキスト記述に合致するビデオを迅速に検索することに寄与する。
【0027】
可能な実現形態において、前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、前記テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成され、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整することを含む。
【0028】
このように、異なるサブネットワークにより、異なる類似度をそれぞれ決定することで、検索条件に関わる第1類似度及び第2類似度を迅速に得ることに寄与し、更に、検索条件に合致するビデオを迅速に検索することができる。
【0029】
本願の第2態様によれば、検索装置を提供する。前記検索装置は、テキストと少なくとも1つのビデオとの間の第1類似度を決定するように構成される第1決定モジュールであって、前記テキストは、検索条件を表すためのものである、第1決定モジュールと、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定し、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定するように構成される第2決定モジュールと、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定するように構成される処理モジュールと、を備える。
【0030】
可能な実現形態において、前記第1決定モジュールは、前記テキストのパラグラフ特徴を決定し、前記少なくとも1つのビデオのビデオ特徴を決定し、前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定するように構成される。
【0031】
可能な実現形態において、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含む。
【0032】
可能な実現形態において、前記第2決定モジュールは、前記テキストに含まれる人名を検出し、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得て、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得て、各前記人物に対応するキャラクターノードと動作ノードを接続するように構成され、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。
【0033】
可能な実現形態において、前記第2決定モジュールは更に、同一の動作ノードに接続されるキャラクターノードを相互接続するように構成される。
【0034】
可能な実現形態において、前記第2決定モジュールは、前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えるように構成される。
【0035】
可能な実現形態において、前記第2決定モジュールは、前記少なくとも1つのビデオの各ショットにおける人物を検出し、前記人物の人体特徴及び動き特徴を抽出し、前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加し、各人物に対応するキャラクターノードと動作ノードを接続するように構成される。
【0036】
可能な実現形態において、前記第2決定モジュールは更に、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続するように構成される。
【0037】
可能な実現形態において、前記第2決定モジュールは更に、1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続するように構成される。
【0038】
可能な実現形態において、前記処理モジュールは、各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得て、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定するように構成される。
【0039】
可能な実現形態において、前記検索装置は、検索ネットワークにより実現し、前記検索装置は、テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定し、前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定し、前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定し、前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定し、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整するように構成される訓練モジュールを更に備える。
【0040】
可能な実現形態において、前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成され、前記訓練モジュールは、前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整するように構成される。
【0041】
本願の第3態様によれば、検索装置を提供する。前記検索装置は、メモリと、プロセッサと、メモリに記憶されてプロセッサで実行可能であるコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行して、本願の実施例に記載の検索方法のステップを実行するように構成される。
【0042】
本願の第4態様によれば、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行されるときに、前記プロセッサに、本願の実施例に記載の検索方法のステップを実行させる。
【0043】
本願の第5態様によれば、コンピュータ可読プログラムを提供する。該コンピュータ可読プログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードは、電子機器で実行されるときに、前記電子機器におけるプロセッサに、本願の実施例に記載の検索方法を実行させる。
例えば、本願は以下の項目を提供する。
(項目1)
テキストと少なくとも1つのビデオとの間の第1類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することと、
前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定することと、
前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することと、を含む、検索方法。
(項目2)
前記テキストと少なくとも1つのビデオとの間の第1類似度を決定することは、
前記テキストのパラグラフ特徴を決定することと、
前記少なくとも1つのビデオのビデオ特徴を決定することと、
前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定することと、を含むことを特徴とする
項目1に記載の検索方法。
(項目3)
前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含むことを特徴とする
項目2に記載の検索方法。
(項目4)
前記テキストの第1人物インタラクティブグラフを決定することは、
前記テキストに含まれる人名を検出することと、
データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、
前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、
各前記人物に対応するキャラクターノードと動作ノードを接続することと、を含み、
前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表されることを特徴とする
項目1から3のうちいずれか一項に記載の検索方法。
(項目5)
前記検索方法は、同一の動作ノードに接続されるキャラクターノードを相互接続することを更に含むことを特徴とする
項目4に記載の検索方法。
(項目6)
前記テキストに含まれる人名を検出することは、
前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを含むことを特徴とする
項目4又は5に記載の検索方法。
(項目7)
前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
前記少なくとも1つのビデオの各ショットにおける人物を検出することと、
前記人物の人体特徴及び動き特徴を抽出することと、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、
各人物に対応するキャラクターノードと動作ノードを接続することと、を含むことを特徴とする
項目1から6のうちいずれか一項に記載の検索方法。
(項目8)
前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続することを更に含むことを特徴とする
項目7に記載の検索方法。
(項目9)
前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続することを更に含むことを特徴とする
項目7又は8に記載の検索方法。
(項目10)
前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することは、
各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、
類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定することと、を含むことを特徴とする
項目1から9のうちいずれか一項に記載の検索方法。
(項目11)
前記検索方法は、検索ネットワークにより実現し、前記検索方法は、
テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定することと、
前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定することと、
前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定することと、
前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと、を更に含むことを特徴とする
項目1から10のうちいずれか一項に記載の検索方法。
(項目12)
前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、前記テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成され、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、
前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整することを含むことを特徴とする
項目11に記載の検索方法。
(項目13)
テキストと少なくとも1つのビデオとの間の第1類似度を決定するように構成される第1決定モジュールであって、前記テキストは、検索条件を表すためのものである、第1決定モジュールと、
前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定し、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定するように構成される第2決定モジュールと、
前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定するように構成される処理モジュールと、を備える、検索装置。
(項目14)
前記第1決定モジュールは、
前記テキストのパラグラフ特徴を決定し、
前記少なくとも1つのビデオのビデオ特徴を決定し、
前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定するように構成されることを特徴とする
項目13に記載の検索装置。
(項目15)
前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含むことを特徴とする
項目14に記載の検索装置。
(項目16)
前記第2決定モジュールは、
前記テキストに含まれる人名を検出し、
データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得て、
前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得て、
各前記人物に対応するキャラクターノードと動作ノードを接続するように構成され、
前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表されることを特徴とする
項目13から15のうちいずれか一項に記載の検索装置。
(項目17)
前記第2決定モジュールは更に、
同一の動作ノードに接続されるキャラクターノードを相互接続するように構成されることを特徴とする
項目16に記載の検索装置。
(項目18)
前記第2決定モジュールは、
前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えるように構成されることを特徴とする
項目16又は17に記載の検索装置。
(項目19)
前記第2決定モジュールは、
前記少なくとも1つのビデオの各ショットにおける人物を検出し、
前記人物の人体特徴及び動き特徴を抽出し、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加し、
各人物に対応するキャラクターノードと動作ノードを接続するように構成されることを特徴とする
項目13から18のうちいずれか一項に記載の検索装置。
(項目20)
前記第2決定モジュールは更に、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続するように構成されることを特徴とする
項目19に記載の検索装置。
(項目21)
前記第2決定モジュールは更に、
1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続するように構成されることを特徴とする
項目19又は20に記載の検索装置。
(項目22)
前記処理モジュールは、
各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得て、
類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定するように構成されることを特徴とする
項目13から21のうちいずれか一項に記載の検索装置。
(項目23)
前記検索装置は、検索ネットワークにより実現され、
テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定し、前記テキストは、検索条件を表すためのものであり、
前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定し、
前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定し、
前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定し、
前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定し、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整するように構成される訓練モジュールを更に備えることを特徴とする
項目13から22のうちいずれか一項に記載の検索装置。
(項目24)
前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成され、
前記訓練モジュールは、
前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整するように構成されることを特徴とする
項目23に記載の検索装置。
(項目25)
メモリと、プロセッサと、メモリに記憶されてプロセッサで実行可能であるコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行して、項目1から12のうちいずれか一項に記載の検索方法を実行するように構成される、検索装置。
(項目26)
プロセッサにより実行されるときに、前記プロセッサに、項目1から12のうちいずれか一項に記載の検索方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
(項目27)
電子機器で実行されるときに、前記電子機器におけるプロセッサに、項目1から12のうちいずれか一項に記載の検索方法を実行させるためのコンピュータ可読コードを含む、コンピュータプログラム。
【発明の効果】
【0044】
本願で提供される技術的解決手段において、テキストと少なくとも1つのビデオとの間の第1類似度を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定し、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定し、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定する。このように、従来の、特徴に基づく検索アルゴリズムに比べて、本願は、テキストと少なくとも1つのビデオとの間の第1類似度、前記テキストの第1人物インタラクティブグラフと前記少なくとも1つのビデオの第2人物インタラクティブグラフとの間の第2類似度を決定することで、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行うことができ、テキスト記述に基づいて、映画のようなビデオの検索の正確率を向上させることができる。
【図面の簡単な説明】
【0045】
【
図1】一例示的な実施例による検索方法の概説フレームワークを示す概略図である。
【
図2】一例示的な実施例による検索方法の実現フローを示す概略図である。
【
図3】一例示的な実施例による検索装置の構造を示す概略図である。
【発明を実施するための形態】
【0046】
ここで添付した図面は、明細書に引き入れて本明細書の一部を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
【0047】
ここで、例示的な実施例を詳しく説明し、その例を図面に示す。以下の記述が図面に係る場合、別途にて示さない限り、異なる図面における同じ数字は、同じまたは類似する要素を示す。以下の例示的な実施例において記述する実施形態は、本願の実施例に合致するすべての実施形態を代表するものではない。一方、それらは、添付された特許請求の範囲に詳細に記載されたような、本願の実施例の一部の形態に合致する装置及び方法の例に過ぎない。
【0048】
本願の実施例において使用される用語は、特定の実施例を説明することだけを目的としており、そして本願の実施例を限定することは意図されていない。本願の実施例及び添付の特許請求の範囲で使用されるとき、単数形の「1つの」、「前記」及び「該」は、文脈が明らかに違うように示さない限り、複数形も含む意図である。本明細書中で使用される「及び/又は」という用語は、列挙された1つ以上の関連する対象物の任意の又は全ての可能的な組み合わせを参照かつ包含することも理解されるべきである。
【0049】
本願の実施例では、用語である第1、第2、第3などを用いて各種情報を記述する可能性があるが、これらの情報はこれらの用語に限定されないことが理解されるべきである。これらの用語は、同一種類の情報をお互いに区別するためだけに用いられる。例えば、本願の実施例の範囲を逸脱しない限り、第1情報は第2情報と称されてもよく、同様に、第2情報は第1情報と称されてもよい。文脈によっては、ここで使用される語句「とすれば」及び「すると」は、「…場合」、「…時」又は「と決定されるのに応答して」と解釈される。
【0050】
以下、図面及び具体的な実施例を参照しながら、本願の検索方法を詳しく説明する。
【0051】
図1は、一例示的な実施例による検索方法の概説フレームワークを示す概略図である。該フレームワークは、ビデオとテキストとのマッチングに用いられる。例えば、映画セグメントとシナリオセグメントとのマッチングに用いられる。該フレームワークは、イベントフローモジュール(EFM:Event Flow Module)及び人物インタラクションモジュール(CIM:Character Interaction Module)という2つのモジュールを備え、イベントフローモジュールは、イベントフローのイベント構造を探索し、パラグラフ特徴及びビデオ特徴を入力として、ビデオとパラグラフとの直接的な類似度を出力するように構成され、人物インタラクションモジュールは、人物インタラクションを利用して、パラグラフにおける人物インタラクティブグラフ及びビデオにおける人物インタラクティブグラフをそれぞれ構築し、更に、グラフマッチングアルゴリズムを用いて、2つのグラフの類似度を評価するように構成される。
【0052】
1つの検索テキストP及び1つの候補ビデオQが与えられた。上記2つのモジュールは、それぞれ、PとQとの類似度スコアを生成し、それぞれ、
【0053】
【0054】
で表す。続いて、合計マッチングスコア
【0055】
【0056】
をそれらの和と定義する。
【0057】
【0058】
具体的に
【0059】
【0060】
を如何に解くかは、下記で詳しく説明される。
【0061】
勿論、他の実施例において、合計マッチングスコアは、上記2つのモジュールで得られたスコアに対して加重加算などを行うことで得られた演算結果であってもよい。
【0062】
本願の実施例は、検索方法を提供する。該検索方法は、端末機器、サーバ又は他の電子機器に適用可能である。ここで、端末機器は、ユーザ機器(UE:User Equipment)、携帯機器、セルラー電話、コードレス電話、パーソナルデジタルアシスタント(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。幾つかの可能な実現形態において、該処理方法は、プロセッサによりメモリに記憶されたコンピュータ可読命令を呼び出すことで実現してもよい。
図2に示すように、前記検索方法は主に以下を含む。
ステップS101において、テキストと少なくとも1つのビデオとの間の第1類似度を決定し、前記テキストは、検索条件を表すためのものである。
【0063】
ここで、前記テキストは、検索条件を表すための文字記述である。本願の実施例は、テキストの取得方式を限定しない。例えば、電子機器は、ユーザにより入力領域で入力された文字記述を受信することができ、又は、ユーザの音声入力を受信し、続いて、音声データを文字記述に変換することができる。
【0064】
ここで、前記検索条件は、人名及び動作を表す少なくとも1つの動詞を含む。例えば、ジャックは、彼自身を一発なぐった。
【0065】
ここで、前記少なくとも1つのビデオは、検索に供するローカル又は第3者ビデオデータベースに位置する。
【0066】
ここで、前記第1類似度は、ビデオとテキストとの直接的なマッチング程度を表す類似度である。
【0067】
一例において、電子機器は、テキストのパラグラフ特徴及びビデオのビデオ特徴をイベントフローモジュールに入力し、イベントフローモジュールにより、ビデオとテキストとの類似度である第1類似度を出力する。
【0068】
幾つかの選択可能な実現形態において、テキストと少なくとも1つのビデオとの間の第1類似度を決定することは、
前記テキストのパラグラフ特徴を決定することであって、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含む、ことと、
前記少なくとも1つのビデオのビデオ特徴を決定することであって、前記ビデオ特徴は、ショット特徴及びショットの数を含む、ことと、
前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定することと、を含む。
【0069】
幾つかの例において、テキストのパラグラフ特徴を決定することは、第1ニューラルネットワークを利用してテキストを処理し、テキストのパラグラフ特徴を得ることであって、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含む、ことを含む。例えば、各単語は、1つの300次元のベクトルに対応する。センテンスにおける各単語の特徴を加算することで、センテンスの特徴を得る。センテンスの数は、テキストにおける句点である。入力されたテキストに対して句点でセンテンスを分割し、センテンスの数を得る。
【0070】
幾つかの例において、ビデオのビデオ特徴を決定することは、第2ニューラルネットワークを利用してビデオを処理することを含む。具体的には、まず、ビデオをピクチャストリームに復号し、続いて、ピクチャストリームに基づいてビデオ特徴を得る。前記ビデオ特徴は、ショット特徴及びショットの数を含む。例えば、ショット特徴は、ショットの3枚のキーフレームのピクチャをニューラルネットワークにより処理することで得られた3つの2348次元のベクトルの平均値である。1つのショットは、ビデオにおける同一のカメラが同一の位置で撮った連続画面である。画面が切り替わると、もう1つのショットになる。従来のショットセグメンテーションアルゴリズムで、ショットの数を得る。
【0071】
このように、テキストのパラグラフ特徴及びビデオのビデオ特徴を分析して第1類似度を決定することで、後続で、検索条件に合致するビデオの決定のための参考となる根拠を提供する。文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行い、テキスト記述に基づいて、ビデオを検索する正確率を向上させることができる。
【0072】
上記技術的解決手段において、任意選択的に、前記第1類似度の演算式は、以下のとおりである。
【0073】
【0074】
ここで、1つのパラグラフ特徴は、M個のセンテンス特徴からなり、センテンス特徴を
【0075】
【0076】
とすると、パラグラフ特徴は、
【0077】
【0078】
で表される。1つのビデオ特徴は、N個のショット特徴からなり、ショット特徴を
【0079】
【0080】
とすると、ビデオ特徴は、
【0081】
【0082】
で表される。ブール割り当て行列
【0083】
【0084】
は、各ショットを各センテンスに割り当てるために用いられる。ここで、
【0085】
【0086】
は、i番目のショットがj番目のセンテンスに割り当てられることを示し、
【0087】
【0088】
は、i番目のショットがj番目のセンテンスに割り当てられていないことを示す。
【0089】
上記技術的解決手段において、任意選択的に、前記第1類似度の演算式の制約条件は、
各ショットが最大1つのセンテンスに割り当てられることと、
上位の番号のショットが割り当てられたセンテンスは、下位の番号のショットが割り当てられたセンテンスよりも前方に位置する。
【0090】
従って、第1類似度の算出を下記式(3)の最適化ターゲットの解きに変換することができる。最適化ターゲットと制約条件を合わせることで、下記最適化式を得ることができる。
【0091】
【0092】
【0093】
【0094】
ここで、式(3)は、最適化ターゲットである。s.t.は、such thatの略語であり、式(3)の制約条件を表す式(4)及び(5)を引き出す。
【0095】
【0096】
は、Yのi行目のベクトルを表し、
【0097】
【0098】
は、1つのブールベクトルの1番目の非ゼロ値の番号を表す。式(4)において、Yは、1つの行列であり、1は、1つのベクトル(全ての要素はいずれも1であるベクトル)であり、Y1は、行列Yとベクトル1との積である。
【0099】
更に、従来のダイナミックプログラミングアルゴリズムにより、該最適化課題の解を得ることができる。具体的には、ダイナミックプログラミングアルゴリズムに関連するアルゴリズムにより、最適なYを解き、
【0100】
【0101】
の値を得ることができる。
【0102】
他の実施例において、パラグラフ特徴及びビデオ特徴に対して、他のタイプの演算を行うこともできる。例えば、複数のパラグラフ特徴及び対応する複数のビデオ特徴に対して加重又は比例演算などを行い、前記第1類似度を得る。
【0103】
ステップS102において、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定する。
【0104】
ここで、人物インタラクティブグラフは、人物間のキャラクター関係及び動作関係を表すためのグラフであり、キャラクターノード及び動作ノードを含む。
【0105】
幾つかの選択可能な実現形態において、1つのテキストは、1つの第1人物インタラクティブグラフに対応し、1つのビデオは、1つの第2人物インタラクティブグラフに対応する。
【0106】
幾つかの選択可能な実現形態において、前記テキストの第1人物インタラクティブグラフを決定することは、前記テキストに含まれる人名を検出することと、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、各前記人物に対応するキャラクターノードと動作ノードを接続することと、を含む。
【0107】
ここで、データベースは、大量の人名とポートレートとの対応関係が事前記憶されたライブラリである。前記ポートレートは、該人名に対応する人物のポートレートである。ポートレートデータは、ネットワークからクローリングされてもよい。例えば、imdbウェブサイト及びtmdbウェブサイトから、ポートレートデータをクローリングすることができる。ここで、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。
【0108】
幾つかの実施例において、前記テキストのセマンティックツリーを解析により決定することは、依存構文アルゴリズムにより、テキストのセマンティックツリーを解析により決定することを含む。例えば、依存構文アルゴリズムを利用して、各センテンスを一つ一つの単語に分け、続いて、言語学の幾つかのルールに基づいて、単語をノードとして、セマンティックツリーを構築する。
【0109】
まず、各センテンスから1つのグラフを得る。続いて、各パラグラフに複数のセンテンスがあるため、複数のグラフがある。しかしながら、数学的に、我々は、該複数のグラフを1つのグラフ(1つの非接続グラフ)と見做すことができる。つまり、数学的に、グラフの定義において、各ノードからもう1つのノードへの経路が全て存在するとは限らず、複数の小さなグラフに分割可能なグラフであってもよい。
【0110】
ここで、複数の人名が同一の動作ノードを示すと、前記複数の人名の動作ノードを辺で2つずつ接続する。
【0111】
ここで、辺で接続される2つのノード特徴をスプライシングして辺の特徴とする。
【0112】
例示的に、辺で接続される2つのノード特徴をそれぞれ2つのベクトルで表してもよい。該2つのベクトルをスプライシング(例えば、次元加算)することで、辺の特徴を得る。例えば、1つの3次元のベクトルともう1つの4次元のベクトルを直接的にスプライシングすることで、7次元のベクトルを得る。例を挙げると、[1,3,4]と[2,5,3,6]をスプライシングする場合、スプライシング結果は、[1,3,4,2,5,3,6]である。
【0113】
幾つかの例において、Word2Vec単語ベクトルニューラルネットワークにより処理された特徴を用いて、動作ノードを表すことができる。つまり、人物の動き特徴とする。
【0114】
幾つかの例において、テキストに含まれる人名を検出する時、テキストにおける代名詞を、前記代名詞で表される人名に置き換える。具体的には、人名検出ツール(例えば、スタンフォード人名検出ツールキット)により、全ての人名(例えば「ジャック」)を検出する。続いて、共参照解析ツールにより、代名詞を、該代名詞で表される人名に置き換える(例えば、「ジャックは、彼自身を一発なぐった」における「彼」を「ジャック」として抽出する)。
【0115】
幾つかの実施例において、人名に基づいて、データベースから、前記人名に対応する人物のポートレートを検索し、ニューラルネットワークにより、前記ポートレートの画像特徴を抽出する。ここで、前記画像特徴は、顔及び体特徴を含む。ニューラルネットワークにより、前記テキストにおける各センテンスのセマンティックツリー及び前記セマンティックツリーにおける、例えば、名詞、代名詞、動詞などのような、各単語の品詞を決定する。前記セマンティックツリーにおける各ノードは、前記センテンスにおける1つの単語である。センテンスにおける動詞を人物の動き特徴とする。つまり、動作ノードとする。名詞又は代名詞に対応する人名を人物のキャラクターノードとする。人物のポートレートの画像特徴を人物のキャラクターノードに付加する。前記セマンティックツリー及び前記人名に基づいて、各前記人名に対応するキャラクターノードと前記人名の動作ノードを接続する。複数の人名は同一の動作ノードを示すと、前記複数の人名を辺で2つずつ接続する。
【0116】
幾つかの選択可能な実現形態において、前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
前記少なくとも1つのビデオの各ショットにおける人物を検出することと、
前記人物の人体特徴及び動き特徴を抽出することと、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、
各人物に対応するキャラクターノードと動作ノードを接続することと、を含む。
【0117】
ここで、1つのショットは、ビデオにおける同一のカメラが同一の位置で撮った連続画面である。画面が切り替わると、もう1つのショットになる。従来のショットセグメンテーションアルゴリズムで、ショットの数を得る。
【0118】
ここで、前記人体特徴は、人物の顔及び体特徴である。ショットに対応する画像を訓練されたモデルにより処理することで、画像における人物の人体特徴を得ることができる。
【0119】
ここで、前記動き特徴は、ショットに対応する画像を訓練されたモデルに入力することで得られた画像における人物の動き特徴である。例えば、認識により得られた人物の、現在画像における動作(例えば水を飲む)である。
【0120】
更に、前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定する時、1組の人物が同時に1つのショットに現れると、同一組の人物における人物のキャラクターノードを2つずつ接続することと、1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続することと、を更に含む。
【0121】
ここで、前記隣接ショットは、現在ショットの前の1つのショット及び後の1つのショットである。
【0122】
ここで、複数のキャラクターノードが同一の動作ノードを示すと、前記複数のキャラクターノードの動作ノードを辺で2つずつ接続する。
【0123】
ここで、辺で接続される2つのノード特徴をスプライシングして辺の特徴とする。
【0124】
上記辺特徴の決定プロセスは、第1人物インタラクティブグラフにおける辺特徴の決定方法を参照することができ、ここで、詳細な説明を省略する。
【0125】
ステップS103において、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定する。
【0126】
ここで、前記第2類似度は、第1人物インタラクティブグラフと第2人物インタラクティブグラフという2つのグラフに対してマッチング演算を行うことで得られた類似度である。
【0127】
一例において、電子機器は、テキスト及びビデオを人物インタラクションモジュールに入力し、人物インタラクションモジュールにより、テキストにおける第1人物インタラクティブグラフ及びビデオにおける第2人物インタラクティブグラフを構築し、更に、グラフマッチングアルゴリズムにより、2つのグラフ間の類似度を評価し、該類似度である第2類似度を出力する。
【0128】
幾つかの選択可能な実施形態において、前記第2類似度の演算式は、以下のとおりである。
【0129】
【0130】
ここで、uは、二値ベクトル(ブールベクトル)を表し、
【0131】
【0132】
は、Vpにおけるi番目のノードとVqにおけるa番目のノードがマッチングできることを表し、
【0133】
【0134】
は、Vpにおけるi番目のノードとVqにおけるa番目のノードがマッチングできないことを表す。同様に、
【0135】
【0136】
は、Vpにおけるj番目のノードとVqにおけるb番目のノードがマッチングできることを表し、
【0137】
【0138】
は、Vpにおけるj番目のノードとVqにおけるb番目のノードがマッチングできないことを表す。i,a,j,bはいずれもインデックスシンボルである。
【0139】
【0140】
は、Vpにおけるi番目のノードとVqにおけるa番目のノードとの類似度を表し、
【0141】
【0142】
は、Epにおける辺(i,j)とEqにおける辺(a,b)との類似度を表す。
【0143】
テキストにおける第1人物インタラクティブグラフを
【0144】
【0145】
とする。ここで、
【0146】
【0147】
は、ノードの集合であり、Epは、辺の集合である。
【0148】
【0149】
は、2種のノードからなる。
【0150】
【0151】
は、第1人物インタラクティブグラフにおける動作ノードであり、
【0152】
【0153】
は、第1人物インタラクティブグラフにおけるキャラクターノードである。
【0154】
ビデオにおける第2人物インタラクティブグラフを
【0155】
【0156】
とする。ここで、Vqは、ノードの集合であり、Eqは、辺の集合である。Vqは、2種のノードからなる。
【0157】
【0158】
は、第2人物インタラクティブグラフにおける動作ノードであり、
【0159】
【0160】
は、第1人物インタラクティブグラフにおけるキャラクターノードである。
【0161】
【0162】
において、maは、動作ノードの数であり、mcは、キャラクターノードの数である。
【0163】
【0164】
において、naは、動作ノードの数であり、ncは、キャラクターノードの数である。
【0165】
ブールベクトル
【0166】
【0167】
を与える。
【0168】
【0169】
であると、
【0170】
【0171】
とマッチングされたことを表す。類似度行列は、
【0172】
【0173】
である。類似度行列
【0174】
【0175】
対角線要素は、ノードの類似度
【0176】
【0177】
である。Vqにおけるi番目のノードとVpにおけるa番目のノードとの類似度を評価する。
【0178】
【0179】
により、辺
【0180】
【0181】
との類似度を評価する。類似度は、ノード又は辺に対応する特徴をドット積処理することで得られる。
【0182】
幾つかの選択可能な実施形態において、前記第2類似度の演算式の制約条件は、
1つのノードがもう1つの集合における最大1つのノードのみにマッチング可能であることと、
異なるタイプのノードをマッチングできないことと、を含む。
【0183】
つまり、マッチングは、一対一型マッチングでなければならない。1つのノードは、もう1つの集合における最大1つのノードのみにマッチング可能である。異なるタイプのノードをマッチングできない。例えば、キャラクターノードは、もう1つの集合の動作ノードにマッチングできない。
【0184】
従って、上記第2類似度の算出を下記最適化式(7)の解きに変換することができる。最終的な最適化式と上記制約条件を合わせることで、以下を得ることができる。
【0185】
【0186】
最適化式を解く過程において、uを得る。uを式(7)に代入することで、類似度を得ることができる。
【0187】
他の実施例において、マッチングしたノード特徴及び動作特徴に対して加重平均などの演算を行うという他の演算方式で、前記第2類似度を得ることもできる。
【0188】
ステップS104において、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定する。
【0189】
幾つかの選択可能な実施形態において、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することは、各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定することと、を含む。
【0190】
幾つかの実施例において、重みは、データベースにおける検証集合により決定される。検証集合において、重み調整により、最終的な検索結果フィードバックに基づいて、一組の最適な重みを得ることができ、更に、試験集合又は実際の検索に直接的に用いることができる。
【0191】
このように、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行い、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定し、テキスト記述に基づいてビデオを検索する正確率を向上させることができる。
【0192】
勿論、他の実施例において、第1類似度と第2類似度を直接的に加算して、各ビデオに対応する類似度を得ることもできる。
【0193】
上記技術的解決手段において、前記検索方法は、検索ネットワークにより実現し、該検索ネットワークの訓練方法は、テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定することと、前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定することと、前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定することと、前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと、を含む。
【0194】
本願の実施例において、前記検索ネットワークに対応する検索フレームワークに、異なる構成モジュールがある。各モジュールにおいて、異なるタイプのニューラルネットワークを用いることができる。前記検索フレームワークは、イベントフローモジュールと人物関係モジュールで構成されるフレームワークである。
【0195】
幾つかの選択可能な実施形態において、前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、前記テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成される。
【0196】
具体的には、テキスト及びビデオを第1サブネットワークに入力し、該第1サブネットワークは、テキストとビデオとの間の第1類似度予測値を出力する。テキスト及びビデオを第2サブネットワークに入力し、該第2サブネットワークは、テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの第2類似度予測値を出力する。アノテーションされた真値に基づいて、テキストとビデオとの間の第1類似度の真値、及び前記テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度真値を得ることができる。第1類似度予測値と第1類似度の真値との差に基づいて、第1類似度の損失を得ることができる。第2類似度予測値と第2類似度の真値との差に基づいて、第2類似度の損失を得ることができる。第1類似度の損失及び第2類似度の損失に基づいて、損失関数を用いて第1サブネットワーク及び第2サブネットワークのネットワークパラメータを調整する。
【0197】
一例において、データ集合を構築する。該データ集合は、328個の映画の概要、及び概要パラグラフと映画セグメントとの注釈の関連付けを含む。具体的には、該データ集合は、各映画のために高品質な詳細概要を提供するだけでなく、手動注釈により、各パラグラフと映画セグメントとを関連付ける。ここで、各映画セグメントは、各分間まで持続して完全なイベントを捕捉することができる。このような映画セグメント及び関連概要パラグラフにより、人々は、より大きな範囲及びより高いセマンティックレベルで分析を行うことができる。該データ集合を基に、本願は、イベントフローモジュール及び人物インタラクションモジュールを含むフレームワークを利用して、映画セグメントと概要パラグラフとのマッチングを実行する。従来の、特徴に基づいたマッチング方法に比べて、該フレームワークは、マッチング精度を著しく向上させると同時に、映画に対する理解における叙事構造及び人物インタラクションの重要性を開示する。
【0198】
幾つかの選択可能な実施形態において、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、
前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整することを含む。
【0199】
幾つかの選択可能な実施形態において、前記損失関数は、以下で表される。
【0200】
【0201】
ここで、
【0202】
【0203】
は、イベントフローモジュールに埋め込まれたネットワークのモデルパラメータを表し、
【0204】
【0205】
は、人物インタラクションモジュールに埋め込まれたネットワークのモデルパラメータを表す。
【0206】
ここで、Yは、イベントフローモジュールにより定義された二値行列であり、uは、人物インタラクションモジュールの二値ベクトルであり、式(12)は、最小化関数
【0207】
【0208】
によりネットワークのパラメータを調整することを表し、例えば、下記式(13)に示すように、新たなネットワークパラメータ
【0209】
【0210】
を得る。
【0211】
【0212】
ここで、
【0213】
【0214】
は、以下で表される。
【0215】
【0216】
ここで、
【0217】
【0218】
は、式(3)の値を最大にするYであり、最適解とも呼ばれる。
【0219】
ここで、
【0220】
【0221】
は、式(7)の値を最大にするuである。
【0222】
ここで、
【0223】
【0224】
は、i番目のビデオ
【0225】
【0226】
とj番目のパラグラフ
【0227】
【0228】
との類似度を表し、
【0229】
【0230】
は、i番目のビデオ
【0231】
【0232】
とi番目のパラグラフ
【0233】
【0234】
との類似度を表し、
【0235】
【0236】
は、j番目のビデオ
【0237】
【0238】
とi番目のパラグラフ
【0239】
【0240】
との類似度を表す。aは、損失関数のパラメータであり、最小類似度差分値を表す。
【0241】
本願に記載の技術的解決手段は、種々の検索タスクに適用可能である。検索シーンを限定しない。例えば、検索シーンは、映画セグメント検索シーン、ドラマセグメント検索シーン、ショートビデオ検索シーンなどを含む。
【0242】
本願で提供される技術的解決手段において、テキストと少なくとも1つのビデオとの間の第1類似度を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定し、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定し、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定する。このように、従来の、特徴に基づく検索アルゴリズムに比べて、本願は、テキストと少なくとも1つのビデオとの間の第1類似度、前記テキストの第1人物インタラクティブグラフと前記少なくとも1つのビデオの第2人物インタラクティブグラフとの間の第2類似度を決定することで、従来の、特徴に基づく検索アルゴリズムにおける、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行うことが行われていないという問題を解決する。イベントフローマッチング方法及び人物インタラクションマッチング方法を用いてビデオ検索を行い、テキスト記述に基づいてビデオを検索する正確率を向上させることができる。
【0243】
上記検索方法に対応して、本願の実施例は、検索装置を提供する。
図3に示すように、前記検索装置は、テキストと少なくとも1つのビデオとの間の第1類似度を決定するように構成される第1決定モジュール10であって、前記テキストは、検索条件を表すためのものである、第1決定モジュール10と、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定し、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定するように構成される第2決定モジュール20と、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定するように構成される処理モジュール30と、を備える。
【0244】
幾つかの実施例において、前記第1決定モジュール10は、前記テキストのパラグラフ特徴を決定し、前記少なくとも1つのビデオのビデオ特徴を決定し、前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定するように構成される。
【0245】
幾つかの実施例において、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含む。
【0246】
幾つかの実施例において、前記第2決定モジュール20は、前記テキストに含まれる人名を検出し、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得て、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得て、各前記人物に対応するキャラクターノードと動作ノードを接続するように構成され、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。
【0247】
幾つかの実施例において、前記第2決定モジュール20は更に、同一の動作ノードに接続されるキャラクターノードを相互接続するように構成される。
【0248】
幾つかの実施例において、前記第2決定モジュール20は、前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えるように構成される。
【0249】
幾つかの実施例において、前記第2決定モジュール20は、前記少なくとも1つのビデオの各ショットにおける人物を検出し、前記人物の人体特徴及び動き特徴を抽出し、前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加し、各人物に対応するキャラクターノードと動作ノードを接続するように構成される。
【0250】
幾つかの実施例において、前記第2決定モジュール20は更に、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続するように構成される。
【0251】
幾つかの実施例において、前記第2決定モジュール20は更に、1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続するように構成される。
【0252】
幾つかの実施例において、前記処理モジュール30は、各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得て、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定するように構成される。
【0253】
幾つかの実施例において、前記検索装置は、検索ネットワークにより実現し、前記検索装置は、テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定し、前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定し、前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定し、前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定し、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整するように構成される訓練モジュール40を更に備える。
【0254】
幾つかの実施例において、前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成され、前記訓練モジュール40は、前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整するように構成される。
【0255】
図3に示す検索装置における各処理モジュールの実現機能を、前記検索方法の関連記述を参照しながら理解することができることは、当業者であれば理解すべきである。
図3に示す検索装置における各処理ユニットの機能は、プロセッサで実行されるプログラムにより実現してもよく、具体的なロジック回路により実現してもよいことは、当業者であれば理解すべきである。
【0256】
実際の適用において、上記第1決定モジュール10、第2決定モジュール20、処理モジュール30及び訓練モジュール40の具体的な構造は、いずれもプロセッサに対応してもよい。前記プロセッサの具体的な構造は、中央演算処理装置(CPU:Central Processing Unit)、マイクロプロセッサ(MCU:Micro Controller Unit)、デジタル信号プロセッサ(DSP:Digital Signal Processing)又はプログラマブルロジックコントローラ(PLC:Programmable Logic Controller)等のような、処理機能を有する電子デバイス又は電子デバイスの集合であってもよい。ここで、前記プロセッサは、実行可能なコードを含む。前記実行可能なコードは、記憶媒体に記憶される。前記プロセッサは、バスなどの通信インタフェースを介して前記記憶媒体に接続される。具体的な各ユニットに対応する機能を実行する時、前記記憶媒体から、前記実行可能なコードを読み出して実行する。前記記憶媒体における、前記実行可能なコードを記憶するための部分は、好ましくは、非一時的記憶媒体である。
【0257】
本願の実施例で提供される検索装置は、テキストに基づいてビデオを検索する正確率を向上させることができる。
【0258】
本願の実施例は、検索装置を更に記載する。前記検索装置は、メモリと、プロセッサと、メモリに記憶されてプロセッサで実行可能であるコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行する時、前記いずれか1つの技術的解決手段により提供される検索方法を実現させる。
【0259】
一実施形態として、前記プロセッサが前記プログラムを実行する時、テキストと少なくとも1つのビデオとの間の第1類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することと、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定することと、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することと、を実現させる。
【0260】
一実施形態として、前記プロセッサが前記プログラムを実行する時、以下を実現させる。テキストと少なくとも1つのビデオとの間の第1類似度を決定することは、前記テキストのパラグラフ特徴を決定することと、前記少なくとも1つのビデオのビデオ特徴を決定することと、前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定することと、を含む。
【0261】
一実施形態として、前記プロセッサが前記プログラムを実行する時、前記テキストの第1人物インタラクティブグラフを決定することは、前記テキストに含まれる人名を検出することと、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、各前記人物に対応するキャラクターノードと動作ノードを接続することと、を実現させ、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。
【0262】
一実施形態として、前記プロセッサが前記プログラムを実行する時、同一の動作ノードに接続されるキャラクターノードを相互接続することを実現させる。
【0263】
一実施形態として、前記プロセッサが前記プログラムを実行する時、前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを実現させる。
【0264】
一実施形態として、前記プロセッサが前記プログラムを実行する時、前記少なくとも1つのビデオの各ショットにおける人物を検出することと、前記人物の人体特徴及び動き特徴を抽出することと、前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、各人物に対応するキャラクターノードと動作ノードを接続することと、を実現させる。
【0265】
一実施形態として、前記プロセッサが前記プログラムを実行する時、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続することを実現させる。
【0266】
一実施形態として、前記プロセッサが前記プログラムを実行する時、1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続することを実現させる。
【0267】
一実施形態として、前記プロセッサが前記プログラムを実行する時、各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定することと、を実現させる。
【0268】
一実施形態として、前記プロセッサが前記プログラムを実行する時、テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定することと、前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定することと、前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定することと、前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと、を実現させる。
【0269】
一実施形態として、前記プロセッサが前記プログラムを実行する時、前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整することを実現させる。
【0270】
本願の実施例で提供される検索装置は、テキスト記述に基づいてビデオを検索する正確率を向上させることができる。
【0271】
本願の実施例は、コンピュータ可読記憶媒体を更に記載する。前記コンピュータ記憶媒体に、コンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令は、前記各実施例に記載の検索方法を実行するために用いられる。つまり、前記コンピュータによる実行可能な命令がプロセッサにより実行された後、前記いずれか1つの技術的解決手段で提供される検索方法を実現させることができる。該コンピュータ記憶媒体は、揮発性コンピュータ可読記憶媒体又は不揮発性コンピュータ可読記憶媒体であってもよい。
【0272】
本願の実施例は、コンピュータプログラム製品を更に提供する。該コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが機器で実行されるときに、機器におけるプロセッサは、上記いずれか1つの実施例で提供される検索方法を実行する。
【0273】
上記コンピュータプログラム製品は、具体的には、ハードウェア、ソフトウェア又はその組み合わせにより実現してもよい。1つの選択可能な実施例において、前記コンピュータプログラム製品は、具体的には、コンピュータ記憶媒体として具現化され、もう1つの選択可能な実施例において、コンピュータプログラム製品は、具体的には、例えば、ソフトウェア開発キット(Software Development Kit:SDK)等のようなソフトウェア製品として具現化されてもよい。
【0274】
本実施例のコンピュータ記憶媒体における各プログラムの機能を、前記各実施例に記載の検索方法の関連記述を参照しながら理解できることは、当業者であれば理解すべきである。
【0275】
本願で提供される幾つかの実施例において、開示される機器及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した機器の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、機器又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
【0276】
分離部材として説明した上記ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
【0277】
また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとを組み合わせて実現してもよい。
【0278】
上記各方法に係る実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現され、前記プログラムはコンピュータ可読記憶媒体に記憶され、該プログラムが実行されるときに、上記方法の実施例におけるステップを実行し、前記記憶媒体は、携帯型記憶装置、読み出し専用メモリ(ROM:Read-only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含むことは、当業者であれば理解すべきである。
【0279】
又は、本願の上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータ可読記憶媒体内に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ機器(パーソナルコンピュータ、サーバ又はネットワーク機器など)に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、携帯型記憶装置、ROM、RAM、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
【0280】
以上は本発明の具体的な実施形態に過ぎず、本願の保護範囲はそれらに制限されるものではなく、当業者が本発明に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本願の保護範囲内に含まれるべきである。従って、本願の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。
【産業上の利用可能性】
【0281】
本願の実施例で提供される技術的解決手段において、テキストと少なくとも1つのビデオとの間の第1類似度を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定し、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定し、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定する。このように、従来の、特徴に基づく検索アルゴリズムに比べて、本願は、テキストと少なくとも1つのビデオとの間の第1類似度、前記テキストの第1人物インタラクティブグラフと前記少なくとも1つのビデオの第2人物インタラクティブグラフとの間の第2類似度を決定することで、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行うことができ、テキスト記述に基づいて、映画のようなビデオの検索の正確率を向上させることができる。