IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7170082情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
<>
  • 特許-情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図1
  • 特許-情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図2
  • 特許-情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図3
  • 特許-情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図4
  • 特許-情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-02
(45)【発行日】2022-11-11
(54)【発明の名称】情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
(51)【国際特許分類】
   G06F 16/75 20190101AFI20221104BHJP
   G06T 7/00 20170101ALI20221104BHJP
   H04N 21/8405 20110101ALI20221104BHJP
【FI】
G06F16/75
G06T7/00 350C
H04N21/8405
【請求項の数】 15
【外国語出願】
(21)【出願番号】P 2021051976
(22)【出願日】2021-03-25
(65)【公開番号】P2021120863
(43)【公開日】2021-08-19
【審査請求日】2021-04-21
(31)【優先権主張番号】202010297146.2
(32)【優先日】2020-04-15
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】ワン・シュー
(72)【発明者】
【氏名】レン・ケシン
(72)【発明者】
【氏名】ヂャン・シャオハン
(72)【発明者】
【氏名】フォン・ジーファン
(72)【発明者】
【氏名】チャイ・チュングアン
(72)【発明者】
【氏名】ジュー・ヨン
【審査官】鹿野 博嗣
(56)【参考文献】
【文献】特開2011-118803(JP,A)
【文献】特開2019-074843(JP,A)
【文献】特開2008-134966(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/75
G06T 7/00
H04N 21/8405
(57)【特許請求の範囲】
【請求項1】
情報を生成するための装置により実行される方法であって、
人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオの関連コンテンツを表すためのビデオコア実体語とを含む複数のタグ実体語を前記ターゲットビデオから取得するステップと、
前記複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするステップと、
各前記タグ実体語のリンク結果に基づいて、前記ターゲットビデオのセマンティック情報を確定するステップと、
前記ナレッジグラフにおけるノードとエッジとの関係に基づいて、前記ターゲットビデオのセマンティック情報を構造化し、前記ターゲットビデオの構造化されたセマンティック情報を取得するステップと、を含む、方法。
【請求項2】
前記方法は、前記ターゲットビデオの構造化されたセマンティック情報を取得した後、
前記ターゲットビデオの構造化されたセマンティック情報に基づいて、前記ターゲットビデオの構造化サブグラフを生成するステップと、
前記構造化サブグラフを予め訓練されたベクトル化モデルに入力し、前記ターゲットビデオの構造化されたセマンティック情報のベクトルを取得するステップであって、前記ベクトル化モデルは、構造化サブグラフと構造化されたセマンティック情報のベクトルとの間の対応関係を表す、ステップと、をさらに含む、請求項1に記載の方法。
【請求項3】
前記ベクトル化モデルは、グラフニューラルネットワークまたはグラフ埋め込みアルゴリズムによって訓練されて得る、請求項2に記載の方法。
【請求項4】
前記の、複数のタグ実体語をターゲットビデオから取得するステップは、
前記ターゲットビデオに対して顔認識を行い、前記ターゲットビデオの人物実体語を取得するステップと、
前記ターゲットビデオに対してビデオ指紋認識を行い、前記ターゲットビデオの作品実体語を取得するステップと、
前記ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツの認識結果に基づいて、前記ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得するステップと、を含む、請求項1に記載の方法。
【請求項5】
前記方法は、前記複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクした後、
各前記タグ実体語のリンク結果に基づいて、前記複数のタグ実体語のうちの前記ターゲットビデオに関連しない実体語である無関係実体語が、各前記タグ実体語に存在するか否かを判断するステップと、
前記タグ実体語が無関係実体語であると判定されたことに応答して、前記無関係実体語を削除するステップと、をさらに含む、請求項1に記載の方法。
【請求項6】
各前記タグ実体語のリンク結果に基づいて、前記ターゲットビデオのセマンティック情報を確定するステップは、
各前記タグ実体語のリンク結果に基づいて、各前記タグ実体語の属性情報を取得するステップと、
各前記タグ実体語のリンク結果に基づいて、前記タグ実体語を前記ナレッジグラフにおけるエッジの関係に応じて拡張し、前記ターゲットビデオの拡張情報を取得するステップと、
各前記タグ実体語の属性情報および前記拡張情報を前記ターゲットビデオのセマンティック情報とするステップと、を含む、請求項1~5のいずれか1項に記載の方法。
【請求項7】
人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオの関連コンテンツを表すための実体語を含むビデオコア実体語と、を含む複数のタグ実体語を前記ターゲットビデオから取得するように構成された取得ユニットと、
前記複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするように構成されたリンクユニットと、
各前記タグ実体語のリンク結果に基づいて、前記ターゲットビデオのセマンティック情報を確定するように構成された確定ユニットと、
前記ナレッジグラフにおけるノードとエッジとの関係に基づいて、前記ターゲットビデオのセマンティック情報を構造化し、前記ターゲットビデオの構造化されたセマンティック情報を取得するように構成された構造化ユニットと、を含む、情報を生成するための装置。
【請求項8】
前記装置は、
前記ターゲットビデオの構造化されたセマンティック情報に基づいて、前記ターゲットビデオの構造化サブグラフを生成するように構成された生成ユニットと、
前記構造化サブグラフを予め訓練されたベクトル化モデルに入力し、前記ターゲットビデオの構造化されたセマンティック情報のベクトルを取得するように構成された入力ユニットであって、前記ベクトル化モデルは、構造化サブグラフと構造化されたセマンティック情報のベクトルとの間の対応関係を表す、入力ユニットと、をさらに含む、請求項7に記載の装置。
【請求項9】
前記ベクトル化モデルは、グラフニューラルネットワークまたはグラフ埋め込みアルゴリズムによって訓練されて得る、請求項8に記載の装置。
【請求項10】
前記取得ユニットはさらに、
前記ターゲットビデオに対して顔認識を行い、前記ターゲットビデオの人物実体語を取得し、
前記ターゲットビデオに対してビデオ指紋認識を行い、前記ターゲットビデオの作品実体語を取得し、
前記ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツの認識結果に基づいて、前記ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得するように構成されている、請求項7に記載の装置。
【請求項11】
前記装置は、
各前記タグ実体語のリンク結果に基づいて、前記複数のタグ実体語のうちの前記ターゲットビデオに関連しない実体語である無関係実体語が、各前記タグ実体語に存在するか否かを判断するように構成された判断ユニットと、
前記タグ実体語が無関係実体語であると判定されたことに応答して、前記無関係実体語を削除するように構成された削除ユニットと、をさらに含む、請求項7に記載の装置。
【請求項12】
前記確定ユニットはさらに、
各前記タグ実体語のリンク結果に基づいて、各前記タグ実体語の属性情報を取得し、
各前記タグ実体語のリンク結果に基づいて、前記タグ実体語を前記ナレッジグラフにおけるエッジの関係に応じて拡張し、前記ターゲットビデオの拡張情報を取得し、
各前記タグ実体語の属性情報および前記拡張情報を前記ターゲットビデオのセマンティック情報とするように構成されている、請求項7~11のいずれか1項に記載の装置。
【請求項13】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、
前記メモリに前記少なくとも1つのプロセッサによって実行可能な指令が記憶されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~6のいずれか1項に記載の方法が実行される電子機器。
【請求項14】
コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項1~6のいずれか1項に記載の方法を実施させるためのものである、非一時的コンピュータ可読記憶媒体。
【請求項15】
コンピュータに、請求項1~6のいずれか一項に記載の方法を実現させためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願の実施形態は、コンピュータ技術分野に関し、具体的には、ナレッジグラフ技術分野に関する。
【背景技術】
【0002】
インターネット上のビデオリソースの増加に伴い、ビデオ推薦やビデオ検索など、ビデオ関連製品が多くなってきている。
【0003】
関連技術では、ビデオ検索やビデオ推薦は通常、ビデオタグ技術を用いて、ビデオリソースに対応するタグを設定する。そして、タグに基づいてビデオを推薦したり、タグに基づいてインデックスを作成したりして、ビデオの推薦や検索を実現する。通常、ビデオのタグは扁平で構造化されておらず、ビデオのタグにはビデオのセマンティック情報が含まれていないため、ビデオの推薦、検索などには適していない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。
【課題を解決するための手段】
【0005】
第1態様において、本出願の実施例は、ターゲットビデオから、人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオの関連コンテンツを表すためのビデオコア実体語とを含む複数のタグ実体語を取得するステップと、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするステップと、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定するステップと、ナレッジグラフにおけるノードとエッジとの関係に基づいて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得するステップと、を含む、情報を生成するための方法を提供する。
【0006】
第2態様において、本出願の実施例は、ターゲットビデオから、人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオの関連コンテンツを表すためのビデオコア実体語とを含む複数のタグ実体語を取得するように構成された取得ユニットと、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするように構成されたリンクユニットと、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定するように構成された確定ユニットと、ナレッジグラフにおけるノードとエッジとの関係に基づいて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得するように構成された構造化ユニットと、を含む、情報を生成するための装置を提供する。
【0007】
第3態様において、本出願の実施例は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、メモリに少なくとも1つのプロセッサによって実行可能な指令が記憶されており、指令が少なくとも1つのプロセッサによって実行されると、本出願の第1態様のいずれかの実施形態に記載の方法が実行される電子機器を提供する。
【0008】
第4態様において、本出願の実施例は、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、本出願の第1態様のいずれかの実施形態に記載の方法を実施させるためのものである、非一時的コンピュータ可読記憶媒体を提供する。
【0009】
第5態様では、本出願の実施例は、プロセッサにより実行されると、本出願の第1態様のいずれかの実施形態に記載の方法を実現する、コンピュータプログラムを提供する。
【0010】
本出願の技術案により、ビデオのタグは構造化されておらず、ビデオのタグにはセマンティック情報が含まれていないため、ビデオタグがビデオの推薦、検索などに適用できないという課題を解決し、ビデオの推薦、検索などの効率と精度を向上させることができる。
【0011】
上記説明は、本出願の実施形態の肝心または重要な特徴を認識することが意図されているわけではなく、本出願の範囲を限定するためにも使用されないことを理解されたい。本出願の他の特徴は、以下の明細書によって理解しやすくなるであろう。
【0012】
図面は、本出願をよりよく理解するためのものであり、本出願への限定を構成しない。
【図面の簡単な説明】
【0013】
図1】本出願に係る情報を生成するための方法の第1の実施形態の模式図である。
図2】本実施形態に係る情報を生成するための方法におけるターゲットビデオから複数のタグ実体語を取得する一実施形態を示す図である。
図3】本出願に係る情報を生成するための方法の第2の実施形態の模式図である。
図4】本出願に係る情報を生成するための装置の一実施形態の模式図である。
図5】本出願の実施形態に係る情報を生成するための方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0014】
以下、図面を参照して本出願の例示的な実施形態について説明する。理解を容易にするために、本出願の実施形態の様々な詳細について説明するが、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、ここに記載された実施形態について本出願の範囲および趣旨から逸脱することなく、様々な変更および修正を行うことができることを認識できるであろう。同様に、以下の説明では、明確かつ簡略化にするために、公知の機能および構造の説明を省略する。
【0015】
なお、衝突しないことを前提に、本明細書の実施形態および実施形態における特徴は、互いに組み合わせられてもよい。以下、添付図面を参照し、実施形態に関連して本出願を詳しく説明する。
【0016】
図1は、本出願に係る情報を生成するための方法の第1の実施形態の模式図である。この情報を生成するための方法は、次のステップ(ステップ101~104)を含むことができる。
【0017】
ステップ101:ターゲットビデオから複数のタグ実体語を取得する。
本実施形態では、情報を生成するための方法の実行主体は、情報を生成するための装置であり得る。この情報を生成するための装置は、電子実体(例えば、サーバ)であってもよいし、ソフトウェア統合によるアプリケーションであってもよい。使用時には、ターゲットビデオをこの情報を生成するための装置に入力することができる。この情報を生成するための装置は、本実施形態に係る情報を生成するための方法を用いてターゲットビデオの構造化されたセマンティック情報を生成することができる。
【0018】
本実施形態では、上記実行主体は、様々な方法でターゲットビデオからタグ実体語を取得することができる。ここで、タグ実体語は認知と知覚の2つのレベルからターゲットビデオを表現することができる。例えば、上記実行主体は、ターゲットビデオを予め訓練された実体語取得モデルに入力して、該ターゲットビデオのタグ実体語を取得することができ、実体語取得モデルは、ターゲットビデオとタグ実体語との対応関係を表すために使用することができる。もちろん、上記実行主体は、ターゲットビデオのタグ実体語を他の方法で取得してもよい。
【0019】
具体的には、上記タグ実体語は、少なくとも人物実体語、作品実体語、ビデオカテゴリ実体語、およびビデオコア実体語を含むことができる。上記人物実体語は、該ターゲットビデオに現れる人物(例えば、アンディ・ラウ)を示すために用いることができる。上記作品実体語は、該ターゲットビデオが属する作品の名前または該ターゲットビデオの作品名(例えば、インファナル・アフェア)を示すために用いることができる。ビデオカテゴリ実体語は、ターゲットビデオのカテゴリを表すために用いることができる。ここで、カテゴリは、映画やテレビ、香港や台湾の映画、中国大陸のバラエティ番組、中国産アニメなどを含むことができる。ビデオコア実体語は、ターゲットビデオに関連するコンテンツを表すための実体語を含むことができ、例えば、ビデオコア実体語は、ターゲットビデオに現れる音楽の音楽名、該音楽のプレイヤ、アニメキャラクタなどを含むことができる。
【0020】
ステップ102:複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクする。
【0021】
本実施形態では、予め設定されたナレッジグラフ(knowledge graph、KG)は、従来技術で知られているナレッジグラフであり得る。このナレッジグラフは、複数のノード(Point)を含むことができ、いくつかのノード間には、接続するエッジ(Edge)も存在する。ステップ101で取得された複数のタグ実体語に基づいて、複数のタグ実体語におけるいずれかのタグ実体語に対して、上記実行主体は、このタグ実体語を上記ナレッジグラフにおけるノードにリンクすることができる。これにより、上記複数のタグ実体語における各実体語はいずれもナレッジグラフにおけるノードにリンクすることができる。「タグ実体語をナレッジグラフにおけるノードにリンクする」とは、タグ実体語の文字列をナレッジグラフにおける対応するノードにマッピングすることを指し得ることを理解されたい。
【0022】
ナレッジグラフは基本的にはセマンティックネットワークであり、グラフベースのデータ構造であり、ノードとエッジからなる。ナレッジグラフでは、各ノードは区別可能で独立して存在するある事物を表し、各エッジはノードとノードとの関係を表す。ノードにおける事物は、ある人、ある都市、ある植物、ある商品などであり得る。ナレッジグラフは、関係を効果的に表すための形態であり、実世界に存在する様々な事物とその関係を記述することを目的としている。したがって、タグ実体語をナレッジグラフにおけるノードにリンクすることにより、ノードとエッジとの関係からタグ実体語のセマンティック情報を取得することができる。
【0023】
本実施形態のいくつかのオプションの実施形態では、タグ実体語を予め設定されたナレッジグラフにおけるノードにリンクした後、上記実行主体は、ナレッジグラフを用いて各タグ実体語を検証することにより、複数のタグ実体語の中にターゲットビデオとは無関係なタグ実体語が存在するか否かを判断することができる。具体的には、上記実行主体は、各タグ実体語のナレッジグラフへのリンク結果に基づいて、各実体タグ語に無関係実体語が存在するか否かを判断することができる。ここで、無関係実体語は、複数のタグ実体語におけるターゲットビデオに関連しない実体語であり得る。例えば、ターゲットビデオが映画「インファナル・アフェア」のセグメントであり、上記実行主体により取得された各タグ実体語には人物実体語「ジャッキー・チュン」が含まれており、この人物実体語をナレッジグラフにおける「ジャッキー・チュン」ノードにリンクした後、このノードとエッジとの関係から「ジャッキー・チュン」がターゲットビデオと無関係であると判断できる。この場合、この人物実体語はターゲットビデオに関連しないタグ実体語であると判断できる。上記実行主体は、タグ実体語が無関係実体語であることを確定した後、この無関係実体語を削除し得ることを理解されたい。この実施形態によって提供される技術案によれば、ナレッジグラフを用いて、取得した各タグ実体語を検証し、各タグ実体語からターゲットビデオと無関係な実体語を削除することにより、取得したターゲットビデオの構造化されたセマンティック情報の正確性を向上させることができる。
【0024】
ステップ103:各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定する。
【0025】
本実施例では、上記実行主体は、ステップ102のリンク結果を取得することができるほか、各タグ実体語のリンク結果を用いて、各タグ実体語のナレッジグラフにおけるリンクノードと、このノードに接続されているエッジとノードに応じて、各タグ実体語のセマンティック情報を特定することができる。ここで、各タグ実体語のセマンティック情報を上記ターゲットビデオのセマンティック情報として確定することができる。例えば、上記タグ実体語は人物実体語「アンディ・ラウ」であり、上記実行主体はこの人物実体語をナレッジグラフにおけるノードにリンクした後、このノードに含まれる情報と、このノードにエッジを介して接続されたノードに含まれる情報、例えば、アンディ・ラウの身元情報、代表作品情報などを取得することができ、これらの情報は人物実体語のセマンティック情報である。
【0026】
本実施形態のいくつかのオプションの実施形態では、上記実行主体は、各タグ実体語のリンク結果に基づいて、この各タグ実体語の属性情報を取得するステップと、各タグ実体語のリンク結果に基づいて、各タグ実体語をナレッジグラフにおけるエッジの関係に応じて拡張し、ターゲットビデオの拡張情報を取得するステップと、各タグ実体語の属性情報および拡張情報をターゲットビデオのセマンティック情報として確定するステップとにより、上記ステップ103を実現することができる。この実施形態では、各タグ実体語のリンク結果を用いて各タグ実体語の属性情報を取得することができる(例えば、タグ実体語は人物実体語と作品実体語を含み、人物実体語の属性情報は人物身元情報、代表作品情報などを含むことができ、作品実体語の属性情報は作品時間情報、出演者情報などを含むことができる)。そして、上記実行主体は、各タグ実体語のリンク結果を用いて、ナレッジグラフにおけるエッジとノードとの関係に応じて各タグ実体語を情報拡張することができ、拡張情報を取得することができる。例えば、タグ実体語は人物実体語(アンディ・ラウ)と作品実体語(インファナル・アフェア)を含むことができる。人物実体語(アンディ・ラウ)と作品実体語(インファナル・アフェア)の2つのタグ実体語のリンク結果を用いて、ナレッジグラフにおけるリンク結果のノードとエッジとの関係に応じて、これらの2つのタグ実体語を情報拡張し、作品における人物の役柄情報(アンディ・ラウがインファナル・アフェアで演じた役柄:劉建明)などの拡張情報を取得することができる。この実施形態によれば、ターゲットビデオのセマンティック情報をさらに拡張することができる。
【0027】
ステップ104:ナレッジグラフにおけるノードとエッジとの関係に応じて、各ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得する。
【0028】
本実施形態では、上記実行主体は、ステップ103で取得されたセマンティック情報に基づいて、セマンティック情報のナレッジグラフに位置するノードとエッジとの関係に応じて、ターゲットビデオのセマンティック情報を構造化することができ、このターゲットビデオの構造化されたセマンティック情報を取得することができる。上記実行主体は取得した構造化されたセマンティック情報をターゲットビデオに表記し得ることを理解されたい。
【0029】
図2は、本実施形態に係る情報を生成するための方法におけるターゲットビデオから複数のタグ実体語を取得する一実施形態である。上記実行主体は、具体的に次のようなステップ(ステップ201~203)により、ステップ101の「ターゲットビデオから複数のタグ実体語を取得する」ことを実現することができる。
【0030】
ステップ201:ターゲットビデオに対して顔認識を行い、ターゲットビデオの人物実体語を取得する。
【0031】
本実施形態では、上記実行主体は、顔認識技術を用いてターゲットビデオを認識し、ターゲットビデオから人物実体語を取得することができる。この実施形態では、上記実行主体は、予め設定された顔データベースにターゲットビデオにおける顔が含まれているか否かを判断することができる。顔データベースにターゲットビデオにおける顔が含まれていれば、上記実行主体は、ターゲットビデオにおける人物実体語を特定することができる。あるいは、上記実行主体は、ターゲットビデオまたはターゲットビデオにおける顔イメージを含むイメージフレームを予め訓練された顔認識モデルに入力し、ターゲットビデオにおける人物実体語を取得することもできる。顔認識モデルは、ターゲットビデオまたはターゲットビデオにおける顔イメージと人物実体語との対応関係を表すために用いることができる。
【0032】
ステップ202:ターゲットビデオに対してビデオ指紋認識を行い、ターゲットビデオの作品実体語を取得する。
【0033】
本実施形態では、大量の完全なソースビデオを含みかつ各ソースビデオの作品名が表記されているビデオライブラリを予め設定することができる。ビデオ指紋認識時に、ターゲットビデオとビデオライブラリにおける各ソースビデオとをマッチングすることにより、上記ターゲットビデオの作品名やターゲットビデオが属するソースビデオの作品名を確定し、ターゲットビデオの作品実体語を取得することができる。
【0034】
ステップ203:ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツの認識結果に基づいて、ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得する。
【0035】
本実施形態では、上記実行主体は、様々な方式でターゲットビデオを処理することにより、ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語とを取得することができる。具体的には、上記実行主体は、ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、テキストコンテンツを様々な実施形態で処理し、ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得することができる。この実施形態によって提供される複数のタグ実体語を取得する方法は、知覚と認知の2つのレベルからタグ実体語を取得することができ、タグ実体語を取得する網羅性を向上させることができる。
【0036】
あるいは、上記実行主体は、ターゲットビデオから、このターゲットビデオのイメージコンテンツである複数フレームのイメージを抽出した後、ターゲットビデオのイメージコンテンツ(例えば、ターゲットビデオに現れるアニメ人物、シーンなど)を分析することにより、ターゲットビデオにおけるアニメキャラクタなどのビデオコア実体語を確定することができる。また、上記実行主体は、ターゲットビデオから、ターゲットビデオのオーディオコンテンツであるオーディオ情報を抽出した後、ターゲットビデオのオーディオコンテンツに対してテキスト変換、声紋認識などの処理を行うことにより、ターゲットビデオにおける音楽名、プレイヤなどのビデオコア実体語を確定することができる。さらに、上記実行主体は、ターゲットビデオから、ターゲットビデオのテキストコンテンツであるテキスト情報(例えば、ターゲットビデオの字幕情報)を抽出した後、ターゲットビデオのテキストコンテンツに対してセマンティック解析などの処理を行うことにより、ターゲットビデオの歌詞などのビデオコア実体語を確定することができる。ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツのうちの少なくとも1つの認識結果から、ターゲットビデオのビデオカテゴリ実体語(例えば、香港・台湾の映画)を認識することもできることを理解されたい。
【0037】
あるいは、上記実行主体は、例えばターゲットビデオの顔情報、字幕情報などの非セマンティック情報に対応するタグ実体語を取得した後、取得したタグ実体語をナレッジグラフにリンクすることにより、作品実体語、ビデオカテゴリ実体語、およびビデオコア実体語などを直接取得することができる。
【0038】
上記実行主体は、ステップ201、ステップ202、およびステップ203のうちの少なくとも1つからターゲットビデオのタグ実体語を取得することができることを理解されたい。上記ステップ201、ステップ202、およびステップ203の実行順序は、優先順位を問わなくてもよく、ここでは具体的な限定がない。例えば、上記ステップ201、ステップ202、およびステップ203は、並列に実行されてもよい。
【0039】
本出願の上記実施形態によって提供される情報を生成するための方法は、まず、ターゲットビデオから複数のタグ実体語を取得することができる。そして、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクすることができる。さらに、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定することができる。最後に、ナレッジグラフにおけるノードとエッジとの関係に応じて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得することができる。これにより、ビデオに構造化されたセマンティック情報を提供することが実現され、ビデオのタグが構造化されておらず、セマンティック情報が欠如しているため、ビデオタグがビデオの推薦、検索などに適用できないという課題が解決され、ビデオの推薦、検索などの効率と精度が向上される。
【0040】
図3は、本出願に係る情報を生成するための方法の第2の実施形態の模式図である。この情報を生成するための方法は、以下のステップ(ステップ301~306)を含むことができる。
【0041】
ステップ301:ターゲットビデオから複数のタグ実体語を取得する。
ステップ302:複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクする。
【0042】
ステップ303:各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定する。
【0043】
ステップ304:ナレッジグラフにおけるノードとエッジとの関係に応じて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得する。
【0044】
本実施形態における上記ステップ301~304に含まれるコンテンツは、上記実施形態におけるステップ101~104に含まれるコンテンツと同様または類似しているため、ここではこれ以上説明しない。
【0045】
ステップ305:ターゲットビデオの構造化されたセマンティック情報に基づいて、ターゲットビデオの構造化サブグラフを生成する。
【0046】
本実施形態では、上記実行主体は、ステップ304で取得されたターゲットビデオの構造化されたセマンティック情報に基づいて、ナレッジグラフにおけるノードとエッジとの関係に応じてこのターゲットビデオの構造化サブグラフを構築することができる。この構造化サブグラフは、ノードおよびエッジを含むことができ、ターゲットビデオに含まれるセマンティック情報間の関係をノードとエッジとの関係で表すことができる。
【0047】
ステップ306:構造化サブグラフを予め訓練されたベクトル化モデルに入力し、ターゲットビデオの構造化されたセマンティック情報のベクトルを取得する。
【0048】
本実施形態では、上記実行主体は、ステップ305で取得されたターゲットビデオの構造化サブグラフに基づいて、取得された構造化サブグラフを予め訓練されたベクトル化モデルに入力することができる。上記ベクトル化モデルは、このターゲットビデオの構造化されたセマンティック情報のベクトルを出力することができる。ここで、ベクトル化モデルは、構造化サブグラフと構造化されたセマンティック情報のベクトルとの対応関係を表すために用いることができる。取得されたベクトルは、構造サブグラフのベクトル表現であってもよいし、構造サブグラフにおけるノードのベクトル表現であってもよい。例えば、構造サブグラフのベクトル表現はビデオ推薦サービスに用いることができ、ノードのベクトル表現はビデオ検索サービスに用いることができる。上記実行主体は、様々な手段を用いて上記ベクトル化モデルを訓練することができ、実際のニーズに応じてモデル訓練を行うことができ、これらは一意に制限されないことを理解されたい。
【0049】
本実施形態のいくつかのオプションの実施形態では、上記実行主体は、グラフニューラルネットワーク(Graph Neural Networks、GNN)を介して上記ベクトル化モデルを訓練することができる。グラフニューラルネットワークの訓練により取得されたベクトル化モデルは、構造サブグラフを出力するベクトル表現に用いることができる。例えば、グラフニューラルネットワークは、具体的に、グラフ畳み込みニューラルネットワーク(Graph Convolutional Network、GCN)を用いて、構造サブグラフにおけるノードの属性およびノードのタグに基づいて、特定のタスクに対してエンドツーエンドでモデルパラメータを訓練することにより、上記ベクトル化モデルを取得することができる。もちろん、上記実行主体は、グラフ埋め込み(Graph Embedding、GE)アルゴリズムを用いて上記ベクトル化モデルを訓練することもできる。グラフ埋め込みアルゴリズムにより訓練して取得されたベクトル化モデルは、構造サブグラフにおけるノードのベクトル表現を出力するために用いることができる。例えば、グラフ埋め込みアルゴリズムは、具体的に、ノードベクトルNode2Vecの方法を用いてベクトル化モデルを訓練することができる。構造サブグラフではノードとエッジからなるネットワークには多くのパスが存在し、各ノードを接続して1本の線を形成すると、これらの結び線には、文における各単語の関係のようにノード間の相互関係が含まれている。したがって、これらのノード列を文とし、単語ベクトルword2vecの方法で訓練を行い、すなわちノードベクトルNode2Vecの方法で訓練を行うことにより、ノードのベクトル表現を取得することができる。この実施形態は、構造サブグラフのベクトル表現を出力するためのベクトル化モデルと、ノードのベクトル表現を出力するためのベクトル化モデルとを提供することができ、出力されたターゲットビデオの構造化されたセマンティック情報のベクトルに多様性を持たせることができる。
【0050】
図3から分かるように、本実施形態における情報を生成するための方法は、図1に対応する実施形態と比較して、ナレッジグラフを用いてビデオの構造化されたセマンティック情報を生成した後、対応する構造サブグラフを取得し、予め訓練されたベクトル化モデルを用いてビデオの構造化されたセマンティック情報のベクトル表現を取得することができる。これにより、生成されたビデオの構造化されたセマンティック情報はビデオ推薦やビデオ検索により良く適用できるようになり、ビデオの構造化されたセマンティック情報の実用性を向上させることができる。
【0051】
図4をさらに参照すると、上記各図に示す方法の実施形態として、本出願は、様々な電子機器に具体的に適用可能な、情報を生成するための装置の一実施形態を提供する。この実施形態は、図1に示す方法の実施形態と対応する。
【0052】
図4に示すように、本実施形態に係る情報を生成するための装置400は、ターゲットビデオから、人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオ関連コンテンツを表すための実体語を含むビデオコア実体語と、を含む複数のタグ実体語を取得するように構成された取得ユニット401と、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするように構成されたリンクユニット402と、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定するように構成された確定ユニット403と、ナレッジグラフにおけるノードとエッジとの関係に基づいて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得するように構成された構造化ユニット404と、を含む。
【0053】
本実施形態のいくつかのオプションの実施形態では、装置400は、ターゲットビデオの構造化されたセマンティック情報に基づいて、ターゲットビデオの構造化サブグラフを生成するように構成された生成ユニットと、構造化サブグラフを予め訓練された、構造化サブグラフと構造化されたセマンティック情報のベクトルとの間の対応関係を表すためのベクトル化モデルに入力し、ターゲットビデオの構造化されたセマンティック情報のベクトルを取得するように構成された入力ユニットと、をさらに含む。
【0054】
本実施形態のいくつかのオプションの実施形態では、ベクトル化モデルは、グラフニューラルネットワークまたはグラフ埋め込みアルゴリズムにより訓練して取得される。
【0055】
本実施形態のいくつかのオプションの実施形態では、取得ユニット401はさらに、ターゲットビデオに対して顔認識を行い、ターゲットビデオの人物実体語を取得し、ターゲットビデオに対してビデオ指紋認識を行い、ターゲットビデオの作品実体語を取得し、ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツの認識結果に基づいて、ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得するように構成されている。
【0056】
本実施形態のいくつかのオプションの実施形態では、装置400は、各タグ実体語のリンク結果に基づいて、各タグ実体語に複数のタグ実体語におけるターゲットビデオに関連しない実体語である無関係実体語が存在するか否かを判断するように構成された判断ユニットと、タグ実体語が無関係実体語であると判定されたことに応答して、無関係実体語を削除するように構成された削除ユニットと、をさらに含む。
【0057】
本実施形態のいくつかのオプションの実施形態では、確定ユニット403はさらに、各タグ実体語のリンク結果に基づいて、この各タグ実体語の属性情報を取得し、各タグ実体語のリンク結果に基づいて、タグ実体語をナレッジグラフにおけるエッジの関係に応じて拡張し、ターゲットビデオの拡張情報を取得し、各タグ実体語の属性情報および拡張情報をターゲットビデオのセマンティック情報として確定するように構成されている。
【0058】
装置400に記載されている各ユニットは、図1を参照して説明された方法の各ステップに対応する。したがって、方法について説明した動作および特徴は、装置400およびその中に含まれるユニットにも同様に適用可能であり、ここではこれ以上説明しない。
【0059】
本出願の実施形態によれば、本出願はまた、電子機器および可読記憶媒体を提供する。
図5は、本出願の実施形態に係る情報を生成するための方法を実現するための電子機器のブロック図である。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、個人デジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様の計算装置のような様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続および関係、ならびにそれらの機能は、あくまでも一例に過ぎず、本明細書に記載されたおよび/または要求される本出願の実施形態を限定することは意図されていない。
【0060】
図5に示すように、この電子機器は、1つ以上のプロセッサ501と、メモリ502と、高速インターフェースおよび低速インターフェースを含む各構成要素を接続するためのインターフェースとを備える。各構成要素は、異なるバスで互いに接続されており、共通マザーボードに実装されていてもよく、必要に応じて他の方法で実装されていてもよい。プロセッサは、インターフェースに結合された表示装置などの外部入出力装置上にGUIのグラフィック情報を表示するために、メモリまたはメモリ上に格納された指令を含む電子機器内で実行される指令を処理することができる。他の実施形態では、複数のプロセッサおよび/または複数のバスは、必要に応じて、複数のメモリと共に使用されてもよい。同様に、複数の電子機器を接続することができ、各電子機器は、部分的に必要な動作を(例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして)提供することができる。図5では、1つのプロセッサ501を例に挙げている。
【0061】
メモリ502は、本出願によって提供される非一時的コンピュータ可読記憶媒体である。メモリは、少なくとも1つのプロセッサに、本出願によって提供される情報を生成するための方法を実行させるために、少なくとも1つのプロセッサによって実行可能な指令を格納する。本出願の非一時的コンピュータ可読記憶媒体は、本出願によって提供される情報を生成するための方法をコンピュータに実行させるためのコンピュータ指令を記憶する。
【0062】
メモリ502は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、並びに本出願の実施形態における情報を生成するための方法に対応するプログラム指令/モジュール (例えば、図4に示す取得ユニット401、リンクユニット402、確定ユニット403および構造化ユニット404) のようなモジュールの格納に使用することができる。プロセッサ501は、メモリ502に記憶された非一時的ソフトウェアプログラム、指令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する。すなわち、上記方法の実施形態における情報を生成するための方法を実現する。
【0063】
メモリ502は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域、および、情報を生成するための電子機器の使用によって生成されたデータなどを記憶することができるデータ記憶領域を含むことができる。さらに、メモリ502は、高速ランダムアクセスメモリを含むことができ、少なくとも1つのディスク記憶装置、フラッシュメモリデバイス、または他の非一時的固体記憶装置のような非一時的メモリを含むこともできる。いくつかの実施形態では、メモリ502は、任意に、情報を生成するための電子機器にネットワークを介して接続することができる、プロセッサ501に対して遠隔設定されたメモリを含むことができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、移動通信網、およびそれらの組み合わせを含むが、これらに限定されない。
【0064】
情報を生成するための方法に用いる電子機器は、入力装置503および出力装置504をさらに含むことができる。プロセッサ501、メモリ502、入力装置503、および出力装置504は、バスを介してまたはその他の方式で接続されることができる。図5はバスを介して接続される例である。
【0065】
入力装置503は、入力された数字または文字情報を受信し、情報を生成するための電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングレバー、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置504は、表示装置、補助照明デバイス(例えば、LED)、触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。この表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。
【0066】
本明細書に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現されることができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラム内に組み込まれることを含むことができる。この1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈されることができる。このプログラマブルプロセッサは、専用プログラマブルプロセッサであっても汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび指令を受信し、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび指令を送信することができる。
【0067】
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、かつ高度なプロセスおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ言語/機械語を用いて実施されることができる。本明細書で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を意味し、機械可読信号として機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
【0068】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを有するコンピュータ上で実施されることができる。ユーザは、キーボードおよびポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類のデバイスはまた、ユーザとのインタラクションを提供するために使用されることができる。例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であり得る。ユーザからの入力は、任意の形態(音響入力、音声入力、または触覚入力を含む)で受信されることができる。
【0069】
本明細書に記載されたシステムおよび技術は、バックグラウンド構成要素を含む計算システム(例えば、データサーバとして)、またはミドルウェア構成要素を含む計算システム(例えば、アプリケーションサーバ)、またはフロントエンド構成要素を含む計算システム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータが挙げられ、ユーザは、グラフィカルユーザインターフェースまたはウェブブラウザを介して、本明細書に記載されたシステムおよび技術の実施形態とインタラクションすることができる)、またはそのようなバックグラウンド構成要素、ミドルウェア構成要素、またはフロントエンド構成要素の任意の組み合わせを含む計算システムにおいて実現されることができる。システムの構成要素は、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、およびインターネットを含む。
【0070】
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは通常、互いに離れており、通信ネットワークを介してインタラクションをする。クライアントとサーバの関係は、対応するコンピュータ上で、互いにクライアント・サーバ関係を有するコンピュータプログラムを動作させることによって生成される。
【0071】
本出願の実施形態の技術案によれば、まず、ターゲットビデオから複数のタグ実体語を取得することができる。そして、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクすることができる。さらに、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定することができる。最後に、ナレッジグラフにおけるノードとエッジとの関係に応じて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得することができる。これにより、ビデオに構造化されたセマンティック情報を提供することが実現され、ビデオのタグが構造化されておらず、セマンティック情報が欠如しているため、ビデオタグがビデオの推薦、検索などに適用できないという従来技術の課題が解決され、ビデオの推薦、検索などの効率と精度が向上される。
【0072】
上記様々な形態のプロセスを用いて、ステップを再順序付け、追加、または削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されても順次に実行されても異なる順序で実行されてもよく、本出願によって開示される技術案の所望の効果を達成さえできれば、本明細書では制限されない。
【0073】
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要求および他の要因に応じて、様々な修正、組み合わせ、再組合、および代替が可能であることが認識すべきである。本出願の趣旨および原則内で行われる任意の修正、同等の置換、および改善などは、すべて本出願の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5