IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソウル大学校産学協力団の特許一覧

特開2023-103966ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置及び方法
<>
  • 特開-ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置及び方法 図1
  • 特開-ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置及び方法 図2
  • 特開-ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置及び方法 図3
  • 特開-ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置及び方法 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023103966
(43)【公開日】2023-07-27
(54)【発明の名称】ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置及び方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20230720BHJP
【FI】
G06N20/00
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022199912
(22)【出願日】2022-12-15
(31)【優先権主張番号】10-2022-0005770
(32)【優先日】2022-01-14
(33)【優先権主張国・地域又は機関】KR
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和3年12月20日 Korea Software Congress 2021(韓国情報科学会2021韓国ソフトウェア総合学術大会論文集)の「270.ビデオ質疑応答のためのマルチモーダル文脈トランスフォーマー(801ページ~803ページ)」
(71)【出願人】
【識別番号】509329800
【氏名又は名称】ソウル大学校産学協力団
【氏名又は名称原語表記】SEOUL NATIONAL UNIVERSITY R&DB FOUNDATION
(74)【代理人】
【識別番号】100091683
【弁理士】
【氏名又は名称】▲吉▼川 俊雄
(74)【代理人】
【識別番号】100179316
【弁理士】
【氏名又は名称】市川 寛奈
(72)【発明者】
【氏名】ジャン,ビョン-タク
(72)【発明者】
【氏名】チェ,ソンホ
(57)【要約】      (修正有)
【課題】ビデオデータに含まれたビデオクリップの前後の文脈を考慮してビデオストーリーを学習するビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置、方法及びプログラムを提供する。
【解決手段】装置は、複数の連続的なビデオクリップを含むビデオデータ及びビデオ質問応答のための質問データを受け、ビデオストーリー質問応答の結果を出力するための入出力部と、ビデオストーリー質問応答を遂行するためのプログラム及びデータを保存する保存部と、少なくとも一つのプロセッサを含み、前記プログラムを実行させることによってビデオストーリー質問応答のためのトランスフォーマーモデルを構築する制御部と、を含む。制御部は、複数の連続的なビデオクリップを含むビデオデータから時間的順序に従って、互いに隣接した前後のビデオクリップの文脈を考慮してビデオストーリーを学習させる
【選択図】図3
【特許請求の範囲】
【請求項1】
複数の連続的なビデオクリップを含むビデオデータ及びビデオ質問応答のための質問データを受け、ビデオストーリー質問応答の結果を出力するための入出力部と、
ビデオストーリー質問応答を遂行するためのプログラム及びデータを保存する保存部と、
少なくとも一つのプロセッサを含み、前記プログラムを実行させることによってビデオストーリー質問応答のためのトランスフォーマーモデルを構築する制御部と、を含み、
前記制御部は、
前記複数の連続的なビデオクリップを含むビデオデータから時間的順序に従って互いに隣接した前後のビデオクリップの文脈を考慮してビデオストーリーを学習させることを特徴とする、ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置。
【請求項2】
前記ビデオクリップは、
複数のビジュアルトークン(visual token)及びテキストトークン(text token)を含み、
前記制御部は、
分離されたそれぞれのエンコーダーを介して予め設定された区間に相当する前記ビデオクリップ別に各ビデオクリップに含まれるビジュアルトークン及びテキストトークンを入力として受け、前記互いに隣接した前後のビデオクリップの下位階層(lower layer)の隠れた表現(hidden representation)を計算し、計算された前記隠れた表現を活用して前後の脈絡を考慮したビデオデータの表現を計算することによってビデオストレージを学習させることを特徴とする、請求項1に記載のビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置。
【請求項3】
前記制御部は、
前記ビデオクリップ別にマスクモダリティモデル(Masked Modality Model)を用いて時間的順序(temporal order)を学習することを特徴とする、請求項1に記載のビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置。
【請求項4】
前記マスクモダリティモデル(Masked Modality Model)は否定対照学習(Negative Contrastive Learning)によって学習されることを特徴とする、請求項3に記載のビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置。
【請求項5】
ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置が遂行するビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法であって、
複数の連続的なビデオクリップを含むビデオデータ及びビデオ質問応答のための質問データを受ける段階と、
前記複数の連続的なビデオクリップを含むビデオデータから時間的順序に従って互いに隣接した前後ビデオクリップの文脈を考慮してビデオストーリーを学習させる段階と、を含む、ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法。
【請求項6】
前記ビデオクリップは、
複数のビジュアルトークン(visual token)及びテキストトークン(text token)を含み、
前記ビデオストーリーを学習させる段階は、
分離されたそれぞれのエンコーダーを介して予め設定された区間に相当する前記ビデオクリップ別に各ビデオクリップに含まれるビジュアルトークン及びテキストトークンを入力として受け、前記互いに隣接した前後ビデオクリップの下位階層(lower layer)の隠れた表現(hidden representation)を計算し、計算された前記隠れた表現を活用して前後の脈絡を考慮したビデオデータの表現を計算することによってビデオストレージを学習させる段階を含むことを特徴とする、請求項5に記載のビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法。
【請求項7】
前記ビデオストーリーを学習させる段階は、
前記ビデオクリップ別にマスクモダリティモデル(Masked Modality Model)を用いて時間的順序(temporal order)を学習する段階を含むことを特徴とする、請求項5に記載のビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法。
【請求項8】
前記マスクモダリティモデル(Masked Modality Model)は否定対照学習(Negative Contrastive Learning)によって学習されることを特徴とする、請求項7に記載のビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法。
【請求項9】
請求項5に記載の方法を遂行するプログラムが記録されたコンピュータ可読の記録媒体。
【請求項10】
ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置によって実行され、請求項5に記載の方法を遂行するために記録媒体に記録されたコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この明細書で開示する実施例はビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置及び方法に関するものであり、より詳しくは、ビデオデータに含まれたビデオクリップの前後の文脈を考慮してビデオストーリーを学習するビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置及び方法に関するものである。
【0002】
本研究は科学技術情報通信部及び情報通信企画評価院(IITP)の革新成長動力プロジェクト事業の「ビデオチューリングテストを通過する水準のビデオストーリー理解基盤の質問応答技術開発(IITP-2017-0-01772-005)」課題及びSWコンピューティング産業源泉技術開発事業の「(SWスターラブ)日常生活学習基盤の認知エージェントSW開発(IITP-2015-0-00310-007)」課題に対する研究結果として遂行された。
【背景技術】
【0003】
最近では、視覚及び自然語処理に対する深層学習技術の発展のおかげで、マルチモーダルデータに対する関心が高くなっており、ビデオデータに対する理解を測定する多くの形態のタスク(task)が注目されている。
【0004】
多様な形態のタスクのうち、ビデオ質問応答(Video Question Answering)はビデオ理解能力を自然語形態の五択の客観式問題の正確度によって測定する。特に、ビデオ質問応答を解決するためには、マルチモーダルビデオに登場する多様なデータの複雑な相関関係を学習し、与えられた質問応答についての核心情報を探さなければならない。
【0005】
最近では、これを解決するために、トランスフォーマー(transformer)に基づいて大規模学習を遂行したモデルが紹介されている。ビデオのための大規模辞書学習はビデオ理解を評価するための多様なタスクで相当な性能を現しており、自然語処理で良い性能を発揮したモデルに基づいて構築された。しかし、従来の技術によれば、ビデオストーリー質問応答を遂行するトランスフォーマーの場合、ビデオの長さが増加するのに伴って計算費用が幾何級数的に増加するので、長さの短いビデオに対してのみ処理が可能であるという問題点があった。
【0006】
一方、前述した背景技術は発明者が本発明の導出のために保有しているか本発明の導出過程で習得した技術情報であり、必ずしも本発明の出願前に一般の公衆に公開された公知技術であるとは言えない。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】韓国公開特許第10-2020-0144417号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
この明細書で開示される実施例は、ビデオデータに含まれたビデオクリップの前後の文脈を考慮してビデオストーリーを学習するビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置及び方法を提供することにその目的がある。
【0009】
本発明の他の目的及び利点は下記の説明によって理解することができ、一実施例よってより明らかになるであろう。また、本発明の目的及び利点は特許請求の範囲に示す手段及びその組合せによって実現することができることが容易に分かるであろう。
【課題を解決するための手段】
【0010】
上述した技術的課題を果たすための技術的手段として、ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置は、複数の連続的なビデオクリップを含むビデオデータ及びビデオ質問応答のための質問データを受け、ビデオストーリー質問応答の結果を出力するための入出力部と、ビデオストーリー質問応答を遂行するためのプログラム及びデータを保存する保存部と、少なくとも一つのプロセッサを含み、前記プログラムを実行させることによってビデオストーリー質問応答のためのトランスフォーマーモデルを構築する制御部とを含み、前記制御部は、前記複数の連続的なビデオクリップを含むビデオデータから時間的順序に従って互いに隣接した前後のビデオクリップの文脈を考慮してビデオストーリーを学習させることを特徴とする。
【0011】
他の実施例によれば、ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置が遂行するビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法は、複数の連続的なビデオクリップを含むビデオデータ及びビデオ質問応答のための質問データを受ける段階と、前記複数の連続的なビデオクリップを含むビデオデータから時間的順序に従って互いに隣接した前後ビデオクリップの文脈を考慮してビデオストーリーを学習させる段階とを含む。
【0012】
さらに他の実施例によれば、記録媒体は、ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法を実行するプログラムが記録されたコンピュータ可読の記録媒体である。ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置が遂行するビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法は、複数の連続的なビデオクリップを含むビデオデータ及びビデオ質問応答のための質問データを受ける段階と、前記複数の連続的なビデオクリップを含むビデオデータから時間的順序に従って互いに隣接した前後ビデオクリップの文脈を考慮してビデオストーリーを学習させる段階とを含む。
【0013】
さらに他の実施例によれば、コンピュータプログラムは、ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置によって実行され、ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法を遂行するために記録媒体に記録されたコンピュータプログラムである。ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置が遂行するビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法は、複数の連続的なビデオクリップを含むビデオデータ及びビデオ質問応答のための質問データを受ける段階と、前記複数の連続的なビデオクリップを含むビデオデータから時間的順序に従って互いに隣接した前後ビデオクリップの文脈を考慮してビデオストーリーを学習させる段階とを含む。
【発明の効果】
【0014】
前述した課題解決手段のうちのいずれか一つによれば、ビデオデータに含まれたビデオクリップの前後の文脈を考慮したトランスフォーマーを構築してビデオストーリー質問応答を遂行するにあたり、大きな計算費用をかけないながらも長いビデオを効果的に処理することができる効果がある。
【0015】
前述した課題解決手段のうちの他の一つによれば、ビデオデータに含まれたビデオクリップの前後の文脈を考慮したトランスフォーマーを構築することで、ビデオストーリー質問応答だけでなく、ビデオの後続の場面の予測、因果関係の推論などの多様な分野に活用することができる効果がある。
【0016】
開示する実施例で得られる効果は以上で言及した効果に制限されず、言及しなかった他の効果は下記の記載で開示する実施例が属する技術分野で通常の知識を有する者に明らかに理解可能であろう。
【0017】
以下、添付図面はこの明細書で開示する好適な実施例を例示するものであり、発明を実施するための具体的な内容とともにこの明細書に開示する技術思想をもっと理解させる役割を果たすものであるので、この明細書に開示する内容は図面に記載した事項のみに限定されて解釈されてはいけない。
【図面の簡単な説明】
【0018】
図1】従来技術によるトランスフォーマーモデルを説明するための図である。
図2】一実施例によるトランスフォーマーモデルを説明するための図である。
図3】一実施例によるビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置の機能ブロック図である。
図4】一実施例によるビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法を説明するためのフローチャートである。
【発明を実施するための形態】
【0019】
以下では添付図面に基づいて多様な実施例を詳細に説明する。以下で説明する実施例は様々な相異なる形態に変形されて実施されることもできる。実施例の特徴をより明確に説明するために、以下の実施例が属する技術分野で通常の知識を有する者に広く知られている事項についての詳細な説明は省略する。そして、図面で実施例の説明に関係ない部分は省略し、明細書全般にわたって類似の部分に対しては類似の図面符号を付けた。
【0020】
明細書全般で、ある構成が他の構成と連結されていると言うとき、これは直接的に連結されている場合だけではなく、その中間に他の構成を挟んで連結されている場合も含む。また、ある構成が他の構成を含むというとき、特に反対の記載がない限り、さらに他の構成を除くものではなくて他の構成をさらに含むこともできることを意味する。
【0021】
以下、添付図面に基づいて実施例を詳細に説明する。
【0022】
図1は従来技術によるトランスフォーマーモデルを説明するための図である。
【0023】
図1は従来技術によるトランスフォーマーモデルを示すものであり、ビデオ表現(representation)学習に用いられるトランスフォーマーモデルの構造を示す。ここで、トランスフォーマーモデルはバニラトランスフォーマー(Vanilla Transformer)であり得る。一方、図1に示すトランスフォーマーは、エンコーダー100がすべてのビデオフレームに対して階層(layer)ごとに分離されるように設定されることができる。ここで、図1に示すトランスフォーマーにおいて、それぞれの区間S、S、Sに対して分離されたエンコーダー100は時間的トランスフォーマー(Temporal Transformer)であり得る。図1に示すトランスフォーマーモデルを用いてビデオストーリー質問応答を遂行することができるが、図1に示すようなトランスフォーマーはそれぞれの区間S、S、Sに対して分離されたエンコーダー100が入力されるビデオデータに含まれたビデオクリップの前後の脈絡を考慮していないから、ビデオの長さが長くなる場合、計算費用が幾何級数的に増加する問題が発生するので、短い長さを有するビデオストーリー質問応答にのみ使われた。したがって、長いビデオをより効果的に処理することができるトランスフォーマーが必要になり、よってビデオデータに含まれたビデオクリップの前後の文脈を考慮したトランスフォーマーが構築された。一実施例によるビデオデータに含まれたビデオクリップの前後の文脈を考慮したトランスフォーマーについては図2及び図3を参照してより詳細に後述する。
【0024】
図2は一実施例によるトランスフォーマーモデルを説明するための図である。
【0025】
図2は一実施例によるトランスフォーマーモデルを示すものであり、ビデオ表現(representation)学習に用いられたトランスフォーマーモデルの構造を示す。ここで、トランスフォーマーモデルは文脈的トランスフォーマー(Contextual Transformer)であり得る。一方、図2に示すトランスフォーマーは、エンコーダー200がすべてのビデオフレームに対して階層(layer)ごとに分離されるように設定されることができる。図2に示すトランスフォーマーは、それぞれの区間S、S、Sに対して分離されたエンコーダー200が入力されるビデオデータに含まれたビデオクリップの前後の脈絡を考慮してビデオストーリーを学習することにより、階層が高くなるのに伴い、考慮することができる前後区間のビデオクリップの個数が変わることができる。ここで、ビデオクリップは短く録画された動画を意味することができる。例えば、第2階層のS及びSの区間では2個の区間を考慮することができ、第2階層のS区間では3個の区間を考慮することができる。ここで、ビデオデータは複数の連続的なビデオクリップを含むことができ、上述したビデオクリップは、複数のビジュアルトークン(visual token)と、テキストトークン(text token)とを含むことができる。一方、図2に示す文脈的トランスフォーマーにおいて、それぞれの区間S、S、Sに対して分離されたエンコーダー200はクロスモーダルトランスフォーマー(Cross-modal Transformer)であり得、上述したクロスモーダルトランスフォーマーは、各区間S、S、Sに対応するビジュアルトークン(visual token)及びテキストトークン(text token)を入力として受けることができる。図2に示すようなトランスフォーマーは、それぞれの区間S、S、Sに対して分離されたエンコーダー100が入力されるビデオデータに含まれたビデオクリップの前後の脈絡を考慮してビデオストーリーを学習するので、大きな計算費用をかけないながらも長いビデオを効果的に処理することができる。また、ビデオデータに含まれたビデオクリップの前後の文脈を考慮したトランスフォーマーを構築することで、ビデオストーリー質問応答だけでなく、ビデオの後続の場面の予測、因果関係の推論などの多様な分野に活用することができる効果がある。
【0026】
一方、上述した図2のトランスフォーマーは、図3に示すビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置によって構築することができる。
【0027】
図3は一実施例によるビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置の機能ブロック図である。
【0028】
図3を参照すると、一実施例によるビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置300は、入出力部310、保存部320、及び制御部330を含む。
【0029】
入出力部310は、使用者からの入力を受信するための入力部と、作業の遂行結果またはビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置300の状態などの情報を表示するための出力部とを含むことができる。すなわち、入出力部310は、複数の連続的なビデオクリップを含むビデオデータ及びビデオ質問応答のための質問データを受け、ビデオストーリー質問応答の結果を出力するための構成である。ここで、ビデオクリップは、複数のビジュアルトークン(visual token)と、テキストトークン(text token)とを含むことができる。
【0030】
保存部320はファイル及びプログラムを保存することができる構成であり、多様な種類のメモリから構成されることができる。特に、保存部320は、後述する制御部330が以下で提示するアルゴリズムに従ってビデオストーリー質問応答のためのトランスフォーマーモデルを構築することができるようにするデータ及びプログラムを保存することができる。
【0031】
制御部330は、CPU、GPU、アルデュイーノなどのような少なくとも一つのプロセッサを含む構成であり、ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置300の全体動作を制御することができる。すなわち、制御部330は、ビデオストーリー質問応答を遂行するようにビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置300に含まれた他の構成を制御することができる。制御部330は、保存部320に保存されたプログラムを実行することで、以下で提示するアルゴリズムに従ってビデオストーリー質問応答のためのトランスフォーマーモデルを構築する演算を遂行することができる。制御部330がビデオストーリー質問応答のためのトランスフォーマーモデルを構築する演算を遂行する方法については後述する。
【0032】
以下では、制御部330が保存部320に保存されたプログラムを実行させることで、一実施例によるビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法を遂行する過程について詳細に説明する。
【0033】
【0034】
【数1】
【0035】
【0036】
【数2】
【0037】
一実施例によれば、制御部330は、上述した式2を使用してビデオストーリー質問応答のためのトランスフォーマーモデルを構築することができる。
【0038】
制御部330は、分離されたそれぞれのエンコーダーを介して予め設定された区間に相当するビデオクリップ別にそれぞれのビデオクリップに含まれるビジュアルトークン及びテキストトークンを受け、互いに隣接した前後のビデオクリップの下位階層(lower layer)の隠れた表現(hidden representation)を計算し、計算された隠れた表現を活用して前後の脈絡を考慮したビデオデータの表現を計算することで、ビデオストレージを学習させることができる。ここで、制御部330は、ビデオクリップ別にマスクモダリティモデル(Masked Modality Model、以下、MMMという)を用いて時間的順序(temporal order)を学習することができる。マスクモダリティモデル(MMM)は、既存のモデルであるマスクランゲージモデル(Masked Language Model)で提案されたトークン(token)単位のマスキング(masking)技法を所定の区間のトークン(token)全体に対するマスキング(masking)に確張したものであり得る。マスクモダリティモデル(MMM)は、一つのモダリティ(Modality)が他のモダリティ(Modality)から生成できるようにするとともに、エンコーダーが周辺のトークン(token)からあまりにも容易にマスクトークン(masked token)を生成することを防止することができ、モダリティ(modality)間の整列(alignment)を学習させることができる。ここで、モダリティは映像及びテキストなどであり得る。したがって、一実施例による文脈的トランスフォーマーを用いて上述した学習を遂行すると、前後の文脈に基づいてセグメント(例えば、区間別に分離されたビデオデータ)についての内容を予測することができるので、自然な話の流れを学習することができる。
【0039】
一方、マスクモダリティモデル(Masked Modality Model)は否定対照学習(Negative Contrastive Learning)によって学習することができる。ここで、マスクモダリティモデル(Masked Modality Model)は次の式3の通りに示すことができる。
【0040】
【数3】
【0041】
【0042】
図4は一実施例によるビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法を説明するためのフローチャートである。
【0043】
図4に示す実施例によるビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法は、図2及び図3に示したビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置100で時系列的に処理する段階を含む。したがって、以下で省略した内容であると言っても、図2及び図3に示したビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置100について以上で記述した内容は図4に示す実施例によるビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法にも適用することができる。
【0044】
図4を参照すると、ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置100は、複数の連続的なビデオクリップを含むビデオデータ及びビデオ質問応答のための質問データを受けることができる(S410)。ここで、ビデオクリップは、複数のビジュアルトークン(visual token)及びテキストトークン(text token)を含むことができる。
【0045】
ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置100は、S410段階で受けた複数の連続的なビデオクリップを含むビデオデータから時間的順序に従って互いに隣接した前後のビデオクリップの文脈を考慮してビデオストーリーを学習させることができる(S420)。ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置100は、分離されたそれぞれのエンコーダーを介して予め設定された区間に相当する前記ビデオクリップ別に各ビデオクリップに含まれるビジュアルトークン及びテキストトークンを入力として受け、前記互いに隣接した前後のビデオクリップの下位階層(lower layer)の隠れた表現(hidden representation)を計算し、前記計算された隠れた表現を活用して前後の脈絡を考慮したビデオデータの表現を計算することで、ビデオストレージを学習させることができる。ここで、ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置100は、ビデオクリップ別にマスクモダリティモデル(Masked Modality Model)を用いて時間的順序(temporal order)を学習することができる。マスクモダリティモデル(MMM)は、既存のモデルであるマスクランゲージモデル(Masked Language Model)で提案された、トークン(token)単位のマスキング(masking)技法を所定の区間のトークン(token)全体に対するマスキング(masking)に確張したものであり得る。マスクモダリティモデル(MMM)は一つのモダリティ(Modality)が他のモダリティ(Modality)から生成できるようにするとともに、エンコーダーが周辺のトークン(token)からあまりにも容易にマスクトークン(masked token)を生成することを防止することができ、モダリティ(modality)間の整列(alignment)を学習させることができる。一方、マスクモダリティモデル(Masked Modality Model)は否定対照学習(Negative Contrastive Learning)によって学習することができる。ここで、マスクモダリティモデル(Masked Modality Model)は上述した式3の通りに示すことができる。
【0046】
以上の実施例で使われる‘~部’という用語はソフトウェア又はFPGA(field programmable gate array)又はASICのようなハードウェア構成要素を意味し、‘~部’はある役割をする。しかし、‘~部’はソフトウェア又はハードウェアに限定される意味ではない。‘~部’はアドレス可能な記憶媒体にあるように構成されることもでき、一つ又はそれ以上のプロセッサを再生させるように構成されることもできる。よって、一例として、‘~部’はソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素及びタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラム特許コードのセグメント、ドライバー、ファームウエア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、及び変数を含む。
【0047】
構成要素及び‘~部’内で提供される機能はより小さな数の構成要素及び‘~部’と結合するか追加的な構成要素及び‘~部’から分離されることができる。
【0048】
それだけでなく、構成要素及び’~部’はデバイス又は保安マルチメディアカード内の一つ又はそれ以上のCPUを再生させるように具現されることもできる。
【0049】
一方、この明細書で説明した一実施例によるビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法は、コンピュータによって実行可能な命令語及びデータを記憶する、コンピュータ可読の媒体の形態にも具現されることができる。ここで、命令語及びデータはプログラムコードの形態として記憶されることができ、プロセッサによって実行されたとき、所定のプログラムモジュールを生成して所定の動作を実行することができる。また、コンピュータ可読の媒体はコンピュータによってアクセス可能な任意の可用媒体であってもよく、揮発性及び非揮発性媒体、分離型及び非分離型媒体のいずれも含む。また、コンピュータ可読の媒体はコンピュータ記録媒体であってもよい。コンピュータ記録媒体はコンピュータ可読の命令語、データ構造、プログラムモジュール又はその他のデータのような情報の記憶のための任意の方法又は技術によって具現された揮発性及び非揮発性、分離型及び非分離型媒体のいずれも含むことができる。例えば、コンピュータ記録媒体は、HDD及びSSDなどのマグネチック記憶媒体、CD、DVD及びブルーレイディスクなどの光学的記録媒体、又はネットワークを介して接近可能なサーバーに含まれるメモリであってもよい。
【0050】
また、この明細書で説明した一実施例によるビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法は、コンピュータによって実行可能な命令語を含むコンピュータプログラム(又はコンピュータプログラム商品)で具現されることもできる。コンピュータプログラムはプロセッサによって処理されるプログラミング可能な機械命令語を含み、高レベルプログラミング言語(High-level Programming Language)、オブジェクト指向プログラミング言語(Object-oriented Programming Language)、アセンブリー言語又は機械言語などで具現されることができる。また、コンピュータプログラムは類型のコンピュータ判読可能記録媒体(例えば、メモリ、ハードディスク、磁気/光学媒体又はSSD(Solid-State Drive)など)に記録できる。
【0051】
したがって、この明細書で説明した一実施例によるビデオストーリー質問応答のためのトランスフォーマーモデルを構築する方法は、上述したようなコンピュータプログラムがコンピューティング装置によって実行されることによって具現されることができる。コンピューティング装置は、プロセッサと、メモリと、記憶装置と、メモリ及び高速拡張ポートに接続している高速インターフェースと、低速バスと記憶装置に接続している低速インターフェースの少なくとも一部を含むことができる。このような成分のそれぞれは多様なバスを用いて互いに接続されており、共通マザーボードに搭載されるか他の適切な方式で装着できる。
【0052】
ここで、プロセッサはコンピューティング装置内で命令語を処理することができる。このような命令語としては、例えば高速インターフェースに接続されたディスプレイのように外部入力及び出力装置上にGUI(Graphic User Interface)を提供するためのグラフィック情報を表示するためにメモリ又は記憶装置に記憶された命令語を有することができる。他の実施例として、多数のプロセッサ及び/又は多数のバスが適切に多数のメモリ及びメモリ形態と一緒に用いられることができる。また、プロセッサは独立的な多数のアナログ及び/又はデジタルプロセッサを含むチップからなるチップセットトで具現されることができる。
【0053】
また、メモリはコンピューティング装置内に情報を記憶する。一例として、メモリは揮発性メモリユニット又はそれらの集合で構成されることができる。他の例として、メモリは不揮発性メモリユニット又はそれらの集合で構成されることができる。また、メモリは、例えば磁気又は光ディスクのような他の形態のコンピュータ可読の媒体であってもよい。
【0054】
そして、記憶装置はコンピューティング装置に大容量の記憶空間を提供することができる。記憶装置はコンピュータ可読の媒体であるかこのような媒体を含む構成であってもよく、例えばSAN(Storage Area Network)内の装置又は他の構成も含むことができ、フロッピーディスク装置、ハードディスク装置、光ディスク装置、又はテープ装置、フラッシュメモリー、それと類似した他の半導体メモリ装置又は装置アレイであってもよい。
【0055】
上述した実施例は例示のためのものであり、上述した実施例が属する技術分野の通常の知識を有する者は上述した実施例が有する技術的思想又は必須な特徴を変更しなくて他の具体的な形態に易しく変形可能であることを理解することができるであろう。したがって、上述した実施例は全ての面で例示的なもので、限定的なものではないことを理解しなければならない。例えば、単一型として説明されている各構成要素は分散されて実施されることもでき、同様に分散されたものとして説明されている構成要素も結合された形態に実施されることができる。
【0056】
本明細書によって保護を受けようとする範囲は前記詳細な説明よりは後述する特許請求範囲によって決定され、特許請求範囲の意味及び範囲とその均等な概念から導出される全ての変更又は変形の形態を含むものに解釈されなければならない。
【符号の説明】
【0057】
300 ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置
310 入出力部
320 保存部
330 制御部
図1
図2
図3
図4