(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024129815
(43)【公開日】2024-09-27
(54)【発明の名称】情報処理装置、情報処理方法及び機器読み取り可能な記憶媒体
(51)【国際特許分類】
H04N 21/84 20110101AFI20240919BHJP
G06F 16/75 20190101ALI20240919BHJP
【FI】
H04N21/84
G06F16/75
【審査請求】未請求
【請求項の数】10
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024037136
(22)【出願日】2024-03-11
(31)【優先権主張番号】202310244361.X
(32)【優先日】2023-03-13
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】劉 威
(72)【発明者】
【氏名】汪 留安
(72)【発明者】
【氏名】孫 俊
【テーマコード(参考)】
5B175
5C164
【Fターム(参考)】
5B175DA04
5B175FA03
5C164MA06S
5C164MB11P
5C164SB01S
5C164SB06S
(57)【要約】
【課題】情報処理装置、情報処理方法及び機器読み取り可能な記憶媒体を提供する。
【解決手段】情報処理装置は、ビデオについて説明される概念の閉集合ラベルグループ及び閉集合ラベルグループに対応するプロンプト集合を取得する取得部であって、閉集合ラベルグループは、概念に関する全てのラベルを含み、プロンプト集合は、閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む、取得部と、ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及びプロンプト集合に基づいて、各フレーム画像が閉集合ラベルグループにおける各ラベルに属するスコアを判定するCLIP部と、ビデオにおける全ての画像のスコアに基づいて、ビデオのラベルを決定するラベル決定部と、を含む。該情報処理装置は、ビデオレベルの属性説明の閉集合の概念のラベル付けを実現することができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ビデオについて説明される概念の閉集合ラベルグループ及び前記閉集合ラベルグループに対応するプロンプト集合を取得する取得部であって、前記閉集合ラベルグループは、前記概念に関する全てのラベルを含み、前記プロンプト集合は、前記閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む、取得部と、
前記ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及び前記プロンプト集合に基づいて、各フレーム画像が前記閉集合ラベルグループにおける各ラベルに属するスコアを判定するCLIP部と、
前記ビデオにおける全ての画像のスコアに基づいて、前記ビデオのラベルを決定するラベル決定部と、を含む、情報処理装置。
【請求項2】
前記取得部は、Chat-GPTにより前記閉集合ラベルグループを取得し、前記閉集合ラベルグループ又はChat-GPTによる前記閉集合ラベルグループにおけるラベルの説明に基づいて前記プロンプト集合を取得する、請求項1に記載の情報処理装置。
【請求項3】
前記CLIP部は、
前記プロンプト集合に基づいて、前記閉集合ラベルグループにおける各ラベルについて各ラベルの特徴を取得するテキストエンコーダと、
前記ビデオにおける各フレーム画像の特徴を抽出する画像エンコーダと、
各フレーム画像の特徴と各ラベルの特徴とに対して類似度比較を行い、各フレーム画像の前記スコアを取得する比較部と、を含む、請求項1又は2に記載の情報処理装置。
【請求項4】
前記ラベル決定部は、
各フレーム画像のスコアが最も高いラベルを各フレーム画像の候補ラベルとして選択する選択部と、
前記ビデオにおける全ての画像の候補ラベルに基づいて、閉集合ラベルグループにおける全てのラベルについて投票する投票部と、
閾値を設定し、投票数が前記閾値よりも高いラベルを前記ビデオのラベルとして判定する判定部と、を含む、請求項1又は2に記載の情報処理装置。
【請求項5】
前記投票部は、フレームを単位として、全てのラベルについて投票する、請求項4に記載の情報処理装置。
【請求項6】
前記ビデオを複数のビデオセグメントに分割する分割部であって、各ビデオセグメントにおける複数のフレーム画像の背景は類似する、分割部、をさらに含む、請求項4に記載の情報処理装置。
【請求項7】
前記投票部は、フレームを単位として、前記複数のビデオセグメントのうちの各ビデオセグメントのラベルについて投票し、
前記選択部は、投票数が最も高いラベルを前記各ビデオセグメントの候補ラベルとし、
前記投票部は、セグメントを単位として、ビデオ全体のラベルについて投票する、請求項6に記載の情報処理装置。
【請求項8】
前記CLIP部は、前記各フレーム画像の特徴に基づいて前記複数のビデオセグメントのうちの各ビデオセグメントの特徴を取得し、各ビデオセグメントが前記閉集合ラベルグループにおける各ラベルに属するスコアを判定し、
前記選択部は、各ビデオセグメントのスコアが最も高いラベルを各ビデオセグメントの候補ラベルとして選択し、
前記投票部は、セグメントを単位として、全てのラベルについて投票する、請求項6に記載の情報処理装置。
【請求項9】
ビデオについて説明される概念の閉集合ラベルグループ及び前記閉集合ラベルグループに対応するプロンプト集合を取得するステップであって、前記閉集合ラベルグループは、前記概念に関する全てのラベルを含み、前記プロンプト集合は、前記閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む、ステップと、
前記ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及び前記プロンプト集合に基づいて、各フレーム画像が前記閉集合ラベルグループにおける各ラベルに属するスコアを判定するステップと、
前記ビデオにおける全ての画像のスコアに基づいて、前記ビデオのラベルを決定するステップと、を含む、情報処理方法。
【請求項10】
機器読み取り可能な命令コードを記憶しているプログラムプロダクトが記録された機器読み取り可能な記憶媒体であって、前記命令コードがコンピュータにより読み取られて実行される際に、前記コンピュータに請求項9に記載の情報処理方法を実行させることができる、記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理の技術分野に関し、具体的には、ビデオを分類するための情報処理装置、情報処理方法及び機器読み取り可能な記憶媒体に関する。
【背景技術】
【0002】
この部分は、本開示に関連する背景情報を提供するが、必ずしも従来技術ではない。
【0003】
現在、ビデオが属するジャンルを手動でラベル付けするものがほとんどである。例えば、ラベル付けの応用は、映画のジャンルや色調などのラベル付けを含む。しかし、手動のラベル付けは主観的なものであり、同一のビデオに対するラベル付けは、人によって異なる可能性があり、場合によって大きく異なる可能性もある。よって、ラベル付けされたラベルに基づいてビデオを選択する応用では、ユーザ体験に悪影響を与えてしまう。従って、ビデオが属するジャンルを客観的にラベル付けする方法が求められている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
この部分は、本開示の一般的な概要を提供し、その全範囲又はその全ての特徴を完全に開示するものではない。
【0005】
本開示は、ビデオを分類するための情報処理装置、情報処理方法及び機器読み取り可能な記憶媒体を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の1つの態様では、ビデオについて説明される概念の閉集合ラベルグループ及び前記閉集合ラベルグループに対応するプロンプト集合を取得する取得部であって、前記閉集合ラベルグループは、前記概念に関する全てのラベルを含み、前記プロンプト集合は、前記閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む、取得部と、前記ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及び前記プロンプト集合に基づいて、各フレーム画像が前記閉集合ラベルグループにおける各ラベルに属するスコアを判定するCLIP部と、前記ビデオにおける全ての画像のスコアに基づいて、前記ビデオのラベルを決定するラベル決定部と、を含む、情報処理装置を提供する。
【0007】
本開示のもう1つの態様では、ビデオについて説明される概念の閉集合ラベルグループ及び前記閉集合ラベルグループに対応するプロンプト集合を取得するステップであって、前記閉集合ラベルグループは、前記概念に関する全てのラベルを含み、前記プロンプト集合は、前記閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む、ステップと、前記ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及び前記プロンプト集合に基づいて、各フレーム画像が前記閉集合ラベルグループにおける各ラベルに属するスコアを判定するステップと、前記ビデオにおける全ての画像のスコアに基づいて、前記ビデオのラベルを決定するステップと、を含む、情報処理方法を提供する。
【0008】
本開示のもう1つの態様では、機器読み取り可能な命令コードを記憶しているプログラムプロダクトが記録された機器読み取り可能な記憶媒体であって、前記命令コードがコンピュータにより読み取られて実行される際に、前記コンピュータに本開示に係る情報処理方法を実行させることができる、記憶媒体を提供する。
【0009】
本開示に係る情報処理装置、情報処理方法及び機器読み取り可能な記憶媒体によれば、ビデオレベルの属性説明の閉集合の概念のラベル付けを実現することができる。
【0010】
ここで行われる説明により、本開示の適用可能な範囲はより明確になる。この部分における説明及び特定の例は、単なる例示するためのものであり、本開示の範囲を限定するものではない。
【図面の簡単な説明】
【0011】
ここで説明される図面は、好ましい実施例を例示するためのものであり、全ての可能な実施例ではなく、本開示の範囲を限定するものではない。
【
図1】本開示の実施例に係る情報処理装置の構成を示すブロック図である。
【
図2】本開示の実施例に係る情報処理装置の原理をより詳細に示す概略図である。
【
図3】本開示の実施例に係る情報処理装置のラベル決定部の構成を示すブロック図である。
【
図4】本開示の他の実施例に係る情報処理装置の構成を示すブロック図である。
【
図5】本開示の実施例に係る情報処理方法を示すフローチャートである。
【
図6】本開示の実施例に係る情報処理装置及び方法を実現可能な汎用パーソナルコンピュータの例示的な構成を示すブロック図である。 本開示に対して各種の変更及び代替を行うことができるが、その特定の実施例は図面を参照しながら詳細に説明される。なお、特定の実施例の説明は本開示を開示の具体的な態様に限定するものではなく、本開示の主旨及び範囲内で各種の変更、均等的なものへの変形、代替を行ってもよい。なお、図面において、同一の構成部は同一の符号で示されている。
【発明を実施するための形態】
【0012】
以下は、図面を参照しながら本開示の例示的な実施例を詳細に説明する。以下の説明は単なる例示的なものであり、本開示、応用及び用途を限定するものではない。
【0013】
以下は、本開示を詳細に説明し、当業者が本開示の範囲を十分に理解するために、例示的な実施例を提供する。本開示の実施例を詳細に理解させるために、多くの特定の細部、例えば特定の手段、装置及び方法の例を説明する。なお、当業者が分かるように、特定の細部を用いる必要がなく、異なる方式を用いて例示的な実施例を実施してもよく、これらの実施例は本開示の範囲を制限するものではない。一部の例示的な実施例では、周知のプロセス、周知の構成及び周知の技術が詳細に説明されていない。
【0014】
図1は、本開示の実施例に係る情報処理装置の構成を示すブロック図である。
図1に示すように、本開示の実施例に係る情報処理装置100は、取得部110、CLIP部120及びラベル決定部130を含んでもよい。
【0015】
取得部110は、ビデオについて説明される概念の閉集合ラベルグループ及び閉集合ラベルグループに対応するプロンプト集合を取得してもよい。ここで、閉集合ラベルグループは、概念に関する全てのラベルを含み、プロンプト集合は、閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む。
【0016】
より具体的には、概念は、ビデオ、例えば映画のジャンル、色調又は映画が撮影された角度などであってもよい。ビデオについて説明される概念は、ビデオのある概念について更なる分類タスクを行うことを意味し、閉集合ラベルグループは、該概念に関連する全てのラベル(サブ概念)により構成されるグループを意味する。プロンプトは、概念の対応するラベルに対する簡単な説明である。また、プロンプト集合におけるプロンプトの数は、閉集合ラベルグループにおけるラベルの数と同一であり、両者は一対一で対応する。
【0017】
例えば、取得部110は、大型言語モデル(LLM:Large Language Model)を使用して、閉集合ラベルグループ及び該閉集合ラベルグループに対応するプロンプト集合を取得してもよい。LLMは、様々な自然言語処理タスクを処理することが可能な機械学習モデルである。LLMの好ましい例としては、GPT-3(Generative Pre-trained Transformer-3)、Chat-GPT(Chat Generative Pre-trained Transformer)などを含む。LLMの通常の応用は、Chat-GPTのようなチャットボットの構築、製品の説明、ブログ記事の作成、テキストの記事や論文の生成、よくある質問への回答、ソーシャルメディアの投稿を分析して顧客の質問をフィードバックすることなどを含む。
【0018】
本開示の分類タスクでは、典型的なLLMにより、説明される映画の概念の閉集合ラベルグループを取得する。全ての概念は完全な閉集合ラベルグループを有し、LLMにより概念のカテゴリ(ラベル)及び特定カテゴリの説明を取得することができる。なお、完全な閉集合ラベルグループを取得するために、取得部110は、インターネット上の他のソース、例えばIMDB(Internet Movie Database)などをさらに参照してもよい。概念のカテゴリ(ラベル)及びカテゴリの説明が取得されると、説明における幾つかの単語をプロンプトとして選択して、各カテゴリ(ラベル)のプロンプトを取得することができる。
【0019】
次に、CLIP部120は、ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及び取得部110により取得されたプロンプト集合に基づいて、各フレーム画像が閉集合ラベルグループにおける各ラベルに属するスコアを判定してもよい。
【0020】
CLIP(Contrastive Language-Image Pre-training)の正式名称は、対照的言語画像事前学習である。CLIPは、インターネット上の大量の画像テキストペアを使用して学習し、テキストの概念と画像との関連付けを構築する。CLIPの使用方法として、タスクの視覚的概念の名称をCLIPのテキストエンコーダに入力し、CLIPの視覚的表現の線形分類器を出力する。CLIP部120の原理の詳細について、
図2を参照しながら後述する。
【0021】
次に、ラベル決定部130は、CLIP部120により取得されたビデオにおける全ての画像のスコアに基づいて、ビデオのラベルを決定する。
【0022】
以下は、
図2及び
図3を参照しながら、本開示に係る情報処理装置100の動作を詳細に説明する。以下の説明ではChat-GPT及び映画を一例としているが、当業者が理解できるように、Chat-GPTによりプロンプト集合を取得することに限定されず、本開示は、映画に適用されるビデオ分類タスクに限定されない。
【0023】
取得部110は、Chat-GPTにより閉集合ラベルグループを取得し、閉集合ラベルグループ又はChat-GPTによる閉集合ラベルグループにおけるラベルの説明に基づいてプロンプト集合を取得してもよい。
【0024】
例えば、Chat-GPTに特定の質問を入力すると、Chat-GPTは、説明される概念のカテゴリ及び特定カテゴリの説明を回答することができる。例えば、映画のジャンルを分類する場合、取得部110は、Chat-GPTに「How may genres does movie include?」を問い合わせてもよい。Chat-GPTは、映画のジャンルのカテゴリを回答する。これによって、取得部110は、映画のジャンルに関する閉集合ラベルグループを取得することができる。上述したように、完全な閉集合ラベルグループを取得するために、取得部110は、IMDBにおける映画ジャンルのカテゴリを参照してもよい。
【0025】
例えば、得られた映画ジャンルの閉集合ラベルグループは、adventure、comedy、drama、action、romance、thriller、crime、suspense、fantasy、Science fiction及びanimationである。
【0026】
映画ジャンルの閉集合ラベルグループを取得した後、取得部110は、閉集合ラベルグループに基づいてプロンプト集合を取得してもよい。
【0027】
例えば、得られたプロンプト集合は、prompt_list=[’adventure scene’, ’comedy scene’, ’drama scene’, ’action scene’, ’romantic scene’, ’thriller scene’, ’crime scene’, ’suspense scene’, ’fantasy scene’, ’Sci-fi scene’, ’animation scene’]である。
【0028】
上記の例では、取得部110は、各ラベルに「scene」を付加したものを対応するプロンプトとし、プロンプト集合を取得する。他の例では、Chat-GPTにより閉集合ラベルグループにおける各ラベルの説明について該ラベルに対応するプロンプトを取得してもよく、例えば、説明における幾つかの単語をプロンプトとして選択してもよい。
【0029】
また、取得部110は、取得したプロンプト集合をCLIP部120に提供してもよい。
【0030】
図2に示すように、CLIP部120は、テキストエンコーダ1201、画像エンコーダ1202及び比較部1203を含む。
【0031】
取得部110により取得されたプロンプト集合は、CLIP部120のテキストエンコーダ1201に入力される。テキストエンコーダ1201は、プロンプト集合に基づいて、閉集合ラベルグループにおける各ラベルについて各ラベルの特徴を取得してもよい。画像エンコーダ1202は、ビデオにおける各フレーム画像の特徴を抽出してもよい。比較部1203は、各フレーム画像の特徴と各ラベルの特徴とに対して類似度比較を行い、各フレーム画像のスコアを取得してもよい。
【0032】
また、CLIP部120は、得られたスコアをラベル決定部130に提供してもよい。
【0033】
図3に示すように、ラベル決定部130は、選択部1301、投票部1302及び判定部1303を含む。
【0034】
選択部1301は、各フレーム画像のスコアが最も高いラベルを各フレーム画像の候補ラベルとして選択する。投票部1302は、ビデオにおける全ての画像の候補ラベルに基づいて、閉集合ラベルグループにおける全てのラベルについて投票する。判定部1303は、閾値を設定し、投票数が閾値よりも高いラベルをビデオのラベルとして判定する。
【0035】
例えば、投票部1302は、フレームを単位として、全てのラベルについて投票してもよい。
【0036】
例えば、ある映画(合計3172個のフレームと仮定する)について、投票部1302により得られた閉集合ラベルグループの投票結果は、[29,70,836,757,1117,123,9,64,0,14,153]である。該投票結果における異なる要素に対応するラベルは、上記のラベルグループにおけるラベルの位置に対応する。投票部1302は、該投票結果を百分率の形式、即ち[0.9%,2.2%,26.4%,23.9%,35.2%,3.9%,0.3%,2%,0,0.4%,4.8%]に変換してもよい。
【0037】
判定部1303は、閾値、例えば15%、20%などを設定してもよい。上述の例では、閾値が15%である場合、26.4%として投票されたジャンル「drama」、23.9%として投票されたジャンル「action」、35.2%として投票されたジャンル「romance」が映画のラベルとして決定される。なお、最終的に得られたラベルの数は、1つ又は複数であってもよい。
【0038】
以上は、第1のレベルのラベルの分類を説明した。第2のレベルのサブラベルの分類について、取得部110は、閉集合ラベルグループにおける特定ラベルについてのサブ閉集合ラベルグループ及びサブ閉集合ラベルグループに対応するサブプロンプト集合を取得してもよい。CLIP部120は、ビデオにおける特定ラベルに属する各フレーム画像の特徴を抽出し、抽出された特徴及びサブプロンプト集合に基づいて、各フレーム画像がサブ閉集合ラベルグループにおける各サブラベルに属するスコアを判定してもよい。ラベル決定部130は、特定ラベルに属する全ての画像のスコアに基づいて、ビデオのサブラベルを決定してもよい。
【0039】
以下は、ジャンル「drama」のサブラベルを一例として、第2のレベルのサブラベルの分類を詳細に説明する。
【0040】
まず、取得部110は、Chat-GPTにより、ジャンル「drama」のサブラベル及びサブラベルの説明を取得してもよい。表1には、サブラベルの説明及びプロンプトの概略的なテーブルである。
【0041】
【表1】
例えば、ジャンル「drama」の8つのサブラベル、即ち、Domestic drama、Psychological drama、Historical drama、Political drama、Tragedy drama、Romance drama、Comedy drama及びMelodramaを取得してもよい。これらのサブラベルは、閉集合ラベルグループを構成する。表1に示すように、各サブラベルの説明をさらに取得し、各説明から幾つかの単語(表1の説明欄の太字部分)をプロンプトとして選択してもよい。この選択のプロセスは、技術者が入力することであってもよい。
【0042】
これによって、以下のようなジャンル「drama」のサブラベルのサブプロンプト集合を取得することができる。
【0043】
prompt_list=[’lives and problems of ordinary families and individuals’, ’mental illness and emotional turmoil’, ’historical time period events and historical figures’, ’political and social issues’, ’consequences of a character’s actions’, ’romantic relationships and the emotions that arise from them’, ’more humorous, comedy and drama’, ’highly emotional performances, dramatic plot twists’]
サブプロンプト集合をCLIP部120のテキストエンコーダ1201に入力し、各サブラベルの特徴を取得してもよい。
【0044】
上記の第1のレベルのラベルについての分類では、ビデオにおける836フレームがジャンル「drama」として決定された。比較部1203は、この836フレーム(「drama」フレーム)の画像の特徴とサブラベル特徴とに対して類似度比較を行い、各「drama」フレームの各サブラベルについてのスコアを取得する。
【0045】
ラベル決定部130における選択部1301は、各「drama」フレームのスコアが最も高いラベルを各「drama」フレームの候補ラベルとして選択する。投票部1302は、全ての「drama」フレームの候補ラベルに基づいて、サブ閉集合ラベルグループにおける全てのサブラベルについて投票する。また、判定部1303は、閾値を設定し、投票数が閾値よりも高いサブラベルをビデオのサブラベルとして判定する。
【0046】
例えば、投票部1302は、フレームを単位として、全てのサブラベルについて投票してもよい。
【0047】
例えば、ジャンル「drama」についてのサブラベルの投票結果は、[185,4,5,4,65,29,84,460]である。該投票結果における異なる要素に対応するサブラベルは、上記のサブ閉集合ラベルグループにおけるサブラベルの位置に対応する。投票部1302は、該投票結果を百分率の形式、即ち[22.1%,0.5%,0.6%,0.5%,7.8%,3.5%,10%,55%]に変換してもよい。
【0048】
判定部1303は、閾値、例えば15%、20%などを設定してもよい。閾値が15%である場合、22.1%として投票されたサブラベル「Domestic drama」、55%として投票されたサブラベル「Melodrama」が映画のサブラベルとして決定される。
【0049】
本開示は、ビデオからフレームを抽出し、各フレームをCLIP部の画像エンコーダに入力し、各フレームの概念スコアが最も高いラベルを選択し、投票により最終的な投票結果を実現し、ラベルを表現するためのパーセンテージを提供する。これらのラベルは、更なる映画分析のための映画ラベルとして使用されてもよい。
【0050】
本開示は、閉集合ラベルグループの思想を導入し、ビデオレベルの属性説明の閉集合の概念のラベル付けのフレームワークを構築する。これによって、本開示の実施例に係る情報処理装置100は、ビデオの属性に対する客観的な分類を実現することができる。
【0051】
図4は、本開示の他の実施例に係る情報処理装置の構成を示すブロック図である。
【0052】
本開示の他の実施例に係る情報処理装置200は、取得部210、CLIP部220、ラベル決定部230及び分割部240を含む。取得部210、CLIP部220及びラベル決定部230は、
図1の取得部110、CLIP部120及びラベル決定部130と同様である。取得部110、CLIP部120及びラベル決定部130、並びにその各サブユニットに関する
図1~
図3の説明は、取得部210、CLIP部220及びラベル決定部230、並びにその各サブユニットについても同様である。このため、その説明を適宜省略する。
【0053】
分割部240は、ビデオを複数のビデオセグメントに分割してもよい。ここで、各ビデオセグメントにおける複数のフレーム画像の背景は類似する。分割部240は、分割情報をCLIP部220とラベル決定部230に提供してもよい。分割情報は、ビデオがどのように分割されるかを示す。なお、分割の基準は画像の背景が類似するか否かに基づいているため、分割された複数のビデオセグメントは必ずしも同一の長さであるとは限らない。
【0054】
1つの実施例では、ラベル決定部230(選択部2301、投票部2302及び判定部2303を含む)における投票部2302は、まず、フレームを単位として、複数のビデオセグメントのうちの各ビデオセグメントのラベルについて投票し、次に、ラベル決定部230における選択部2301は、投票数が最も高いラベルを各ビデオセグメントの候補ラベルとし、次に、投票部2302は、セグメントを単位として、ビデオ全体のラベルについて投票する。言い換えれば、各ビデオの候補ラベルに基づいて、ビデオ全体のラベルを取得する。
【0055】
もう1つの実施例では、CLIP部220(テキストエンコーダ2201、画像エンコーダ2202及び比較部2203を含む)における画像エンコーダ2202は、各フレーム画像の特徴に基づいて、複数のビデオセグメントのうちの各ビデオセグメントの特徴を取得する。例えば、該ビデオセグメントにおける全ての画像の特徴の平均値を求めることで、各ビデオセグメントの特徴を取得してもよい。
【0056】
CLIP部220における比較部2203は、テキストエンコーダ2201により得られた各ラベルの特徴と各ビデオセグメントの特徴と比較することによって、各ビデオセグメントが閉集合ラベルグループにおける各ラベルに属するスコアを判定する。次に、ラベル決定部230における選択部2301は、各ビデオセグメントのスコアが最も高いラベルを各ビデオセグメントの候補ラベルとして選択する。次に、ラベル決定部230における投票部2302は、セグメントを単位として、全てのラベルについて投票する。同様に、各ビデオセグメントの候補ラベルに基づいて、ビデオ全体のラベルを取得する。
【0057】
同様に、判定部2303は、閾値を設定し、投票数が閾値よりも高いラベルをビデオのラベルとして判定する。
【0058】
なお、当業者が理解できるように、情報処理装置100に関する詳細な説明により、上記の方法は、ビデオのサブラベルの判定にも同様に適用する。
【0059】
これによって、本開示の実施例に係る情報処理装置200は、背景が類似するビデオに基づいて投票を行うことによって、ビデオの分類タスクの正確度を向上させることができる。
【0060】
以下は、
図5を参照しながら、本開示の実施例に係る情報処理方法を説明する。
【0061】
図5に示すように、本開示の実施例に係る情報処理方法は、ステップS110から開始する。ステップS110において、ビデオについて説明される概念の閉集合ラベルグループ及び閉集合ラベルグループに対応するプロンプト集合を取得する。閉集合ラベルグループは、概念に関する全てのラベルを含み、プロンプト集合は、閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む。
【0062】
次に、ステップS120において、ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及びプロンプト集合に基づいて、各フレーム画像が閉集合ラベルグループにおける各ラベルに属するスコアを判定する。
【0063】
次に、ステップS130において、ビデオにおける全ての画像のスコアに基づいて、ビデオのラベルを決定する。この後、プロセスは終了する。
【0064】
本開示の実施例では、Chat-GPTにより閉集合ラベルグループを取得し、閉集合ラベルグループ又はChat-GPTによる閉集合ラベルグループにおけるラベルの説明に基づいてプロンプト集合を取得してもよい。インターネット上の他のソース、例えばIMDBをさらに参照して、閉集合ラベルグループを取得してもよい。
【0065】
本開示の実施例では、スコアを取得するステップは、プロンプト集合に基づいて、閉集合ラベルグループにおける各ラベルについて各ラベルの特徴を取得するステップと、ビデオにおける各フレーム画像の特徴を抽出するステップと、各フレーム画像の特徴と各ラベルの特徴とに対して類似度比較を行い、各フレーム画像のスコアを取得するステップと、を含んでもよい。
【0066】
本開示の実施例では、ビデオのラベルを決定するステップは、各フレーム画像のスコアが最も高いラベルを各フレーム画像の候補ラベルとして選択するステップと、ビデオにおける全ての画像の候補ラベルに基づいて、閉集合ラベルグループにおける全てのラベルについて投票するステップと、閾値を設定し、投票数が閾値よりも高いラベルをビデオのラベルとして判定するステップと、を含んでもよい。
【0067】
本開示の実施例では、フレームを単位として、全てのラベルについて投票してもよい。
【0068】
本開示の実施例では、該方法は、ビデオを複数のビデオセグメントに分割するステップであって、各ビデオセグメントにおける複数のフレーム画像の背景は類似する、ステップ、をさらに含んでもよい。
【0069】
本開示の実施例では、該方法は、フレームを単位として、複数のビデオセグメントのうちの各ビデオセグメントのラベルについて投票するステップと、投票数が最も高いラベルを各ビデオセグメントの候補ラベルとするステップと、セグメントを単位として、ビデオ全体のラベルについて投票するステップと、をさらに含んでもよい。
【0070】
本開示の実施例では、該方法は、各フレーム画像の特徴に基づいて複数のビデオセグメントのうちの各ビデオセグメントの特徴を取得し、各ビデオセグメントが閉集合ラベルグループにおける各ラベルに属するスコアを判定するステップと、各ビデオセグメントのスコアが最も高いラベルを各ビデオセグメントの候補ラベルとして選択するステップと、セグメントを単位として、全てのラベルについて投票するステップと、をさらに含んでもよい。
【0071】
本開示の実施例では、該方法は、閉集合ラベルグループにおける特定ラベルについてのサブ閉集合ラベルグループ及びサブ閉集合ラベルグループに対応するサブプロンプト集合を取得するステップと、ビデオにおける特定ラベルに属する各フレーム画像の特徴を抽出し、抽出された特徴及びサブプロンプト集合に基づいて、各フレーム画像がサブ閉集合ラベルグループにおける各サブラベルに属するスコアを判定するステップと、特定ラベルに属する全ての画像のスコアに基づいて、ビデオのサブラベルを決定するステップと、をさらに含んでもよい。
【0072】
これによって、本開示の実施例に係る情報処理方法によれば、ビデオレベルの属性説明の閉集合の概念のラベル付けを実現することができる。
【0073】
本開示の実施例に係る情報処理方法の上記ステップの各態様は、既に詳細に説明されており、ここでその説明を省略する。
【0074】
なお、本開示に係る情報処理方法の各処理は、各種の機器が読み取り可能な記憶媒体に記憶されたコンピュータ実行可能なプログラムにより実現されてもよい。
【0075】
また、本開示の目的は、上記実行可能なプログラムコードを記憶した記憶媒体をシステム又は装置に直接的又は間接的に提供し、該システム又は装置におけるコンピュータ又は中央処理装置(CPU)が該プログラムコードを読み出して実行することによって実現されてもよい。この場合は、該システム又は装置はプログラムを実行可能な機能を有すればよく、本開示の実施例はプログラムに限定されない。また、該プログラムは任意の形式であってもよく、例えば対象プログラム、インタプリタによって実行されるプログラム、又はオペレーティングシステムに提供されるスクリプトプログラム等であってもよい。
【0076】
上記の機器が読み取り可能な記憶媒体は、各種のメモリ、記憶部、半導体装置、光ディスク、磁気ディスク及び光磁気ディスクのようなディスク、並びに情報を記憶可能な他の媒体等を含むが、これらに限定されない。
【0077】
また、コンピュータがインターネット上の対応するウェブサイトに接続され、本開示のコンピュータプログラムコードをコンピュータにダウンロード、インストール、そして実行することによって、本開示の実施例を実現することができる。
【0078】
図6は、本開示の実施例に係る情報処理装置及び方法を実現可能な汎用パーソナルコンピュータの例示的な構成を示すブロック図である。
【0079】
図6に示すように、CPU1301は、読み出し専用メモリ(ROM)1302に記憶されているプログラム、又は記憶部1308からランダムアクセスメモリ(RAM)1303にロードされたプログラムにより各種の処理を実行する。RAM1303には、必要に応じて、CPU1301が各種の処理を実行するに必要なデータが記憶されている。CPU1301、ROM1302、及びRAM1303は、バス1304を介して互いに接続されている。入力/出力インターフェース1305もバス1304に接続されている。
【0080】
入力部1306(キーボード、マウスなどを含む)、出力部1307(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部1308(例えばハードディスクなどを含む)、通信部1309(例えばネットワークのインターフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース1305に接続されている。通信部1309は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライバ1310は、入力/出力インターフェース1305に接続されてもよい。取り外し可能な媒体1311は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライバ1310にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部1308にインストールされている。
【0081】
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体1311を介してソフトウェアを構成するプログラムをインストールする。
【0082】
なお、これらの記憶媒体は、
図6に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体1311に限定されない。取り外し可能な媒体1311は、例えば磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク-読み出し専用メモリ(CD-ROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM1302、記憶部1308に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
【0083】
なお、本開示のシステム及び方法では、各ユニット又は各ステップを分解且つ、或いは再組み合わせてもよい。これらの分解及び/又は再組み合わせは、本開示と同等であると見なされる。また、本開示の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本開示の技術的な範囲を限定するものではない。
【0084】
以上は図面を参照しながら本開示の実施例を詳細に説明しているが、上述した実施形態及び実施例は単なる例示的なものであり、本開示を限定するものではない。当業者は、特許請求の範囲の主旨及び範囲内で本開示に対して各種の修正、変更を行ってもよい。これらの修正、変更は本開示の保護範囲に含まれるものである。
【0085】
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
ビデオについて説明される概念の閉集合ラベルグループ及び前記閉集合ラベルグループに対応するプロンプト集合を取得する取得部であって、前記閉集合ラベルグループは、前記概念に関する全てのラベルを含み、前記プロンプト集合は、前記閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む、取得部と、
前記ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及び前記プロンプト集合に基づいて、各フレーム画像が前記閉集合ラベルグループにおける各ラベルに属するスコアを判定するCLIP部と、
前記ビデオにおける全ての画像のスコアに基づいて、前記ビデオのラベルを決定するラベル決定部と、を含む、情報処理装置。
(付記2)
前記取得部は、Chat-GPTにより前記閉集合ラベルグループを取得し、前記閉集合ラベルグループ又はChat-GPTによる前記閉集合ラベルグループにおけるラベルの説明に基づいて前記プロンプト集合を取得する、付記1に記載の情報処理装置。
(付記3)
前記CLIP部は、
前記プロンプト集合に基づいて、前記閉集合ラベルグループにおける各ラベルについて各ラベルの特徴を取得するテキストエンコーダと、
前記ビデオにおける各フレーム画像の特徴を抽出する画像エンコーダと、
各フレーム画像の特徴と各ラベルの特徴とに対して類似度比較を行い、各フレーム画像の前記スコアを取得する比較部と、を含む、付記1又は2に記載の情報処理装置。
(付記4)
前記ラベル決定部は、
各フレーム画像のスコアが最も高いラベルを各フレーム画像の候補ラベルとして選択する選択部と、
前記ビデオにおける全ての画像の候補ラベルに基づいて、閉集合ラベルグループにおける全てのラベルについて投票する投票部と、
閾値を設定し、投票数が前記閾値よりも高いラベルを前記ビデオのラベルとして判定する判定部と、を含む、付記1又は2に記載の情報処理装置。
(付記5)
前記投票部は、フレームを単位として、全てのラベルについて投票する、付記4に記載の情報処理装置。
(付記6)
前記ビデオを複数のビデオセグメントに分割する分割部であって、各ビデオセグメントにおける複数のフレーム画像の背景は類似する、分割部、をさらに含む、付記4に記載の情報処理装置。
(付記7)
前記投票部は、フレームを単位として、前記複数のビデオセグメントのうちの各ビデオセグメントのラベルについて投票し、
前記選択部は、投票数が最も高いラベルを前記各ビデオセグメントの候補ラベルとし、
前記投票部は、セグメントを単位として、ビデオ全体のラベルについて投票する、付記6に記載の情報処理装置。
(付記8)
前記CLIP部は、前記各フレーム画像の特徴に基づいて前記複数のビデオセグメントのうちの各ビデオセグメントの特徴を取得し、各ビデオセグメントが前記閉集合ラベルグループにおける各ラベルに属するスコアを判定し、
前記選択部は、各ビデオセグメントのスコアが最も高いラベルを各ビデオセグメントの候補ラベルとして選択し、
前記投票部は、セグメントを単位として、全てのラベルについて投票する、付記6に記載の情報処理装置。
(付記9)
ビデオについて説明される概念の閉集合ラベルグループ及び前記閉集合ラベルグループに対応するプロンプト集合を取得するステップであって、前記閉集合ラベルグループは、前記概念に関する全てのラベルを含み、前記プロンプト集合は、前記閉集合ラベルグループにおける各ラベルに対応するプロンプトを含む、ステップと、
前記ビデオにおける各フレーム画像の特徴を抽出し、抽出された特徴及び前記プロンプト集合に基づいて、各フレーム画像が前記閉集合ラベルグループにおける各ラベルに属するスコアを判定するステップと、
前記ビデオにおける全ての画像のスコアに基づいて、前記ビデオのラベルを決定するステップと、を含む、情報処理方法。
(付記10)
Chat-GPTにより前記閉集合ラベルグループを取得し、前記閉集合ラベルグループ又はChat-GPTによる前記閉集合ラベルグループにおけるラベルの説明に基づいて前記プロンプト集合を取得する、付記9に記載の情報処理方法。
(付記11)
前記スコアを取得するステップは、
前記プロンプト集合に基づいて、前記閉集合ラベルグループにおける各ラベルについて各ラベルの特徴を取得するステップと、
前記ビデオにおける各フレーム画像の特徴を抽出するステップと、
各フレーム画像の特徴と各ラベルの特徴とに対して類似度比較を行い、各フレーム画像の前記スコアを取得するステップと、を含む、付記9又は10に記載の情報処理方法。
(付記12)
前記ビデオのラベルを決定するステップは、
各フレーム画像のスコアが最も高いラベルを各フレーム画像の候補ラベルとして選択するステップと、
前記ビデオにおける全ての画像の候補ラベルに基づいて、閉集合ラベルグループにおける全てのラベルについて投票するステップと、
閾値を設定し、投票数が前記閾値よりも高いラベルを前記ビデオのラベルとして判定するステップと、を含む、付記9又は10に記載の情報処理方法。
(付記13)
フレームを単位として、全てのラベルについて投票する、付記12に記載の情報処理方法。
(付記14)
前記ビデオを複数のビデオセグメントに分割するステップであって、各ビデオセグメントにおける複数のフレーム画像の背景は類似する、ステップ、をさらに含む、付記12に記載の情報処理方法。
(付記15)
フレームを単位として、前記複数のビデオセグメントのうちの各ビデオセグメントのラベルについて投票するステップと、
投票数が最も高いラベルを前記各ビデオセグメントの候補ラベルとするステップと、
セグメントを単位として、ビデオ全体のラベルについて投票するステップと、をさらに含む、付記14に記載の情報処理方法。
(付記16)
前記各フレーム画像の特徴に基づいて前記複数のビデオセグメントのうちの各ビデオセグメントの特徴を取得し、各ビデオセグメントが前記閉集合ラベルグループにおける各ラベルに属するスコアを判定するステップと、
各ビデオセグメントのスコアが最も高いラベルを各ビデオセグメントの候補ラベルとして選択するステップと、
セグメントを単位として、全てのラベルについて投票するステップと、をさらに含む、付記14に記載の情報処理方法。
(付記17)
インターネット上の他のソースを参照して前記閉集合ラベルグループを取得する、付記10に記載の情報処理方法。
(付記18)
前記他のソースはIMDBである、付記17に記載の情報処理方法。
(付記19)
前記閉集合ラベルグループにおける特定ラベルについてのサブ閉集合ラベルグループ及び前記サブ閉集合ラベルグループに対応するサブプロンプト集合を取得するステップと、
前記ビデオにおける前記特定ラベルに属する各フレーム画像の特徴を抽出し、抽出された特徴及び前記サブプロンプト集合に基づいて、各フレーム画像が前記サブ閉集合ラベルグループにおける各サブラベルに属するスコアを判定するステップと、
前記特定ラベルに属する全ての画像のスコアに基づいて、前記ビデオのサブラベルを決定するステップと、をさらに含む、付記9に記載の情報処理方法。
(付記20)
機器読み取り可能な命令コードを記憶しているプログラムプロダクトが記録された機器読み取り可能な記憶媒体であって、前記命令コードがコンピュータにより読み取られて実行される際に、前記コンピュータに付記9~19の何れかに記載の情報処理方法を実行させることができる、記憶媒体。
【外国語明細書】