(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-29
(45)【発行日】2023-12-07
(54)【発明の名称】質疑応答装置及び方法
(51)【国際特許分類】
G06F 16/783 20190101AFI20231130BHJP
G06F 16/90 20190101ALI20231130BHJP
【FI】
G06F16/783
G06F16/90 100
(21)【出願番号】P 2021510735
(86)(22)【出願日】2020-11-18
(86)【国際出願番号】 KR2020016229
(87)【国際公開番号】W WO2022080567
(87)【国際公開日】2022-04-21
【審査請求日】2021-08-23
(31)【優先権主張番号】10-2020-0131339
(32)【優先日】2020-10-12
(33)【優先権主張国・地域又は機関】KR
【新規性喪失の例外の表示】特許法第30条第2項適用 令和2年5月7日にアーカイヴ(arXiv)のウエブサイトにて発表
(73)【特許権者】
【識別番号】509329800
【氏名又は名称】ソウル大学校産学協力団
【氏名又は名称原語表記】SEOUL NATIONAL UNIVERSITY R&DB FOUNDATION
(74)【代理人】
【識別番号】100091683
【氏名又は名称】▲吉▼川 俊雄
(74)【代理人】
【識別番号】100179316
【氏名又は名称】市川 寛奈
(72)【発明者】
【氏名】ジャン,ビョン-タク
(72)【発明者】
【氏名】チェ,ソンホ
(72)【発明者】
【氏名】オン,キョン-ウン
(72)【発明者】
【氏名】ホ,ユ-ジョン
(72)【発明者】
【氏名】ジャン,ユ ウォン
(72)【発明者】
【氏名】ソ,アジョン
(72)【発明者】
【氏名】リ,スンチャン
(72)【発明者】
【氏名】リ,ミンス
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】韓国公開特許第10-2020-0070142(KR,A)
【文献】特開2008-022292(JP,A)
【文献】米国特許出願公開第2020/0043174(US,A1)
【文献】JIE Lei, et al.,TVQA+: Spatio-Temporal Grounding for Video Question Answering,[online],米国,2020年03月11日,[retrieved on 2023-02-06], Retrieved from the Internet: <URL: https://arxiv.org/pdf/1904.11574.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
H04N 5/00- 5/956
H04N 7/00- 7/56
G06T 7/00- 7/90
(57)【特許請求の範囲】
【請求項1】
質疑応答装置で遂行される質疑応答方法であって、
ビデオコンテンツ及び質疑応答対を含むデータセットが入力される段階と、
入力された前記データセットの中で前記ビデオコンテンツから入力時系列シーケンスを生成し、入力された前記データセットの中で前記質疑応答対から質疑応答時系列シーケンスを生成する前処理段階と、
前記入力時系列シーケンスと質疑応答
時系列シーケンスを関連させて加重値を計算し、計算された前記加重値と前記入力時系列シーケンスを演算して第1結果値を算出する段階と、
前記入力時系列シーケンスの中で質疑応答で登場する人物に直接的に関連する部分に注意して第2結果値を算出する段階と、
前記
入力時系列シーケンス、前記第1結果値、前記第2結果値及びブルフラグを連結して第3結果値を算出し、前記第3結果値に基づいて最終答案を選択する段階とを含
み、
前記前処理段階は、
前記データセットに含まれたデータをそれぞれ順に連結して時系列データを生成する段階と、
前記時系列データから単語ベクター及びイメージ特徴ベクターを抽出し、抽出されたベクターに前記時系列データの関連人物情報をワンホットベクターで連結して関連人物の含まれた特徴ベクターを生成する段階と、
両方向長短期メモリモデルに前記関連人物の含まれた特徴ベクターを入力し、文脈的流れを有する時系列シーケンスを生成する段階とをさらに含む方法。
【請求項2】
前記データセットは、質疑応答対、話し手が表示されたスクリプト、視覚的メタデータ(行動及び感情)、及び視覚バウンディングボックスを含む、請求項1に記載の方法。
【請求項3】
前記第2結果値を算出する段階において、
ドットプロダクト注意(Dot-product Attention)とマルチヘッド注意(Multi-Head Attention)を用いて第3結果値を算出することを特徴とする、請求項1に記載の方法。
【請求項4】
質疑応答装置であって、
質疑応答を遂行するプログラムが記憶される記憶部と、
少なくとも一つのプロセッサを含む制御部とを含み、
前記制御部は、前記プログラムを実行させることによってビデオコンテンツ及び質疑応答対を含むデータセットが入力されれば、入力された前記データセットの中で前記ビデオコンテンツから入力時系列シーケンスを生成し、入力された前記データセットの中で前記質疑応答対から質疑応答時系列シーケンスを生成し、
前記入力時系列シーケンスと質疑応答
時系列シーケンスを関連させて加重値を計算し、計算された前記加重値と前記入力時系列シーケンスを演算して第1結果値を算出し、
前記入力時系列シーケンスの中で質疑応答で登場する人物に直接的に関連する部分に注意して第2結果値を算出し、
前記入力時系列シーケンス、前記第1結果値、前記第2結果値及びブルフラグを連結して第3結果値を算出し、前記第3結果値に基づいて最終答案を選択
し、
前記制御部は、入力された前記データセットの中で前記入力時系列シーケンスと質疑応答時系列シーケンスを生成するに際して、
前記データセットに含まれたデータをそれぞれ順に連結して時系列データを生成し、
前記時系列データから単語ベクター及びイメージ特徴ベクターを抽出し、抽出されたベクターに前記時系列データの関連人物情報をワンホットベクターで連結して関連人物の含まれた特徴ベクターを生成し、
両方向長短期メモリモデルに前記関連人物の含まれた特徴ベクターを入力し、文脈的流れを有する時系列シーケンスを生成する装置。
【請求項5】
前記データセットは、質疑応答対、話し手が表示されたスクリプト、視覚的メタデータ(行動及び感情)、及び視覚バウンディングボックスを含むことを特徴とする、請求項
4に記載の装置。
【請求項6】
前記制御部が第2結果値を算出するに際して、
ドットプロダクト注意(Dot-product Attention)とマルチヘッド注意(Multi-Head Attention)を用いて第3結果値を算出する、請求項
4に記載の装置。
【請求項7】
コンピュータで請求項1に記載の方法を実行させるためのプログラムが記録されたコンピュータ可読の記録媒体。
【請求項8】
質疑応答装置によって遂行され、請求項1に記載の方法を遂行するために媒体に記録される、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書で開示する実施例は階層的ビデオストーリーモデリングとこれを用いてビデオを対象とする質疑に応答する質疑応答装置及び方法に関するものである。
【0002】
本研究は科学技術情報通信部と情報通信企画評価院の革新成長動力プロジェクト事業の研究結果として遂行された(IITP-2017-0-01772-004)。
【0003】
本研究は科学技術情報通信部と情報通信企画評価院のSWコンピューティング産業源泉技術開発事業の研究結果として遂行された(IITP-2015-0-00310-006)。
【0004】
本研究は科学技術情報通信部と情報通信企画評価院の革新成長動力プロジェクト事業の研究結果として遂行された(IITP-2019-0-01367-002)。
【背景技術】
【0005】
最近、ビデオストーリーモデリング分野は視覚及び自然語処理研究を融合する高難度の分野として新しく浮び上がっている。このような視覚及び自然語処理の融合した領域を取り扱う代表的な技術として、Visual Question Answering(VQA)技術がある。VQA技術は、ビデオに内包された意味や大筋に対する質疑に応答することができるように、ビデオに含まれたデータを分析し、それによって質問に対する返事を推論する。
【0006】
しかし、ビデオストーリー質疑応答問題は、単純なイメージとは次元が違い、多くの情報を内包するビデオ自体の特性と、その特性による質疑の多様な種類による問題の難易度が高くなるため、解決しにくい分野として評価されている。
【0007】
よって、データセットの収集が難しいだけなく、現在先行されているビデオストーリー質疑応答データセットは多くの限界点を持っている。
【0008】
また、従来のビデオ質疑応答モデルは字幕と映像のイメージフレーム情報のみを使っているから、字幕や映像から推論されない登場人物の音声に含まれている話し手や感情についての情報を用いにくいという問題があった。
【0009】
これに関連して、先行技術文献である韓国公開特許第2017-0043582号公報には、‘多重言語イメージ質疑応答’について開示されている。このような先行技術文献は多重言語の質疑に対して多重言語で応答することができるイメージ質疑応答方法が記載されている。しかし、このような従来技術は断片的にキャプショニングされたイメージデータセットに基づいて質疑応答することができるように訓練される学習モデルに関するものであり、多数のイメージフレーム、字幕、及びオーディオからなるビデオに基づく質疑応答技術の問題点や改善方向については提示するものがない。
【0010】
したがって、ビデオ質疑応答の難易度を改善するとともに、話し手や感情を区分して質疑に対する適切な応答を推論することができる方法が要求される。
【0011】
一方、前述した背景技術は発明者が本発明の導出のために保有しているか本発明の導出過程で習得した技術情報であり、必ずしも本発明の出願前に一般の公衆に公開された公知技術であるとは言えない。
【先行技術文献】
【特許文献】
【0012】
【文献】韓国公開特許第2017-0043582号公報
【発明の概要】
【発明が解決しようとする課題】
【0013】
本明細書で開示する実施例は、ビデオが持っているストーリーを登場人物中心にモデリングしてビデオストーリー関連質疑応答を効果的に解決するための質疑応答方法及びこれを遂行するための質疑応答装置を提供しようとする。
【課題を解決するための手段】
【0014】
前記技術的課題を解決するために、ビデオコンテンツ及び質疑応答対を含むデータセットが入力され、前記入力されたデータセットの中で前記ビデオコンテンツから入力時系列シーケンスを生成し、前記入力されたデータセットの中で前記質疑応答対から質疑応答時系列シーケンスを生成し、前記入力時系列シーケンスと前記質疑応答シーケンスを関連させて加重値を計算し、前記計算された加重値と前記入力時系列シーケンスを演算して第1結果値を算出し、前記入力時系列シーケンスの中で質疑応答で登場する人物に直接的に関連する部分に注意して第2結果値を算出し、前記時系列シーケンス、前記第1結果値、前記第2結果値及びブルフラグを連結して第3結果値を算出し、前記第3結果値に基づいて最終答案を選択する方法を提供する。
【発明の効果】
【0015】
前述した課題解決手段のいずれか一つによれば、質疑応答装置は、階層的難易度を有する評価方法と登場人物中心のビデオ注釈を有するデータセットを介してビデオストーリーの包括的理解を遂行することができる。
【0016】
また、質疑応答装置は、コンテキストマッチングモジュール(Context Matching Module)とキャラクターマッチングモジュール(Character Matching Module)を活用して登場人物中心のストーリーの理解によって正解を推論するデュアルマッチングマルチストリームモデル(Dual Matching Multistream Model)を介して登場人物中心の表現を効果的に学習することができる。
【0017】
開示する実施例で得られる効果は以上で言及した効果に制限されず、言及しなかった他の効果は下記の記載で開示する実施例が属する技術分野で通常の知識を有する者に明らかに理解可能であろう。
【図面の簡単な説明】
【0018】
【
図1】一実施例によってビデオに対する質疑に対して最適の応答を算出するように構成されたデュアルマッチングマルチストリームモデル及びデュアルマッチングマルチストリームモデルにおけるデータの流れを示す図である。
【
図2】一実施例によるビデオに対する質疑に対して最適の応答を算出するための装置の構成を示す図である。
【
図3】一実施例による質疑応答装置で使用されるデータセットの一例を示す図である。
【
図4】一実施例による質疑応答装置によって遂行される質疑応答方法を段階的に示す図である。
【
図5】一実施例による質疑応答装置によって遂行される質疑応答方法を段階的に示す図である。
【発明を実施するための形態】
【0019】
上述した技術的課題を達成するための技術的手段として、一実施例によれば、質疑応答方法は、質疑応答装置で遂行される質疑応答方法であって、ビデオコンテンツ及び質疑応答対を含むデータセットが入力される段階と、前記入力されたデータセットの中で前記ビデオコンテンツから入力時系列シーケンスを生成し、前記入力されたデータセットの中で前記質疑応答対から質疑応答時系列シーケンスを生成する前処理段階と、前記入力時系列シーケンスと前記質疑応答シーケンスを関連させて加重値を計算し、前記計算された加重値と前記入力時系列シーケンスを演算して第1結果値を算出する段階と、前記入力時系列シーケンスの中で質疑応答で登場する人物に直接的に関連する部分に注意して第2結果値を算出する段階と、前記時系列シーケンス、前記第1結果値、前記第2結果値及びブルフラグを連結して第3結果値を算出し、前記第3結果値に基づいて最終答案を選択する段階とを含む。
【0020】
他の実施例によれば、質疑応答装置は、質疑応答を遂行するプログラムが記憶される記憶部と、少なくとも一つのプロセッサを含む制御部とを含み、前記制御部は、前記プログラムを実行させることによってビデオコンテンツ及び質疑応答対を含むデータセットが入力されれば、前記入力されたデータセットの中で前記ビデオコンテンツから入力時系列シーケンスを生成し、前記入力されたデータセットの中で前記質疑応答対から質疑応答時系列シーケンスを生成し、前記入力時系列シーケンスと前記質疑応答シーケンスを関連させて加重値を計算し、前記計算された加重値と前記入力時系列シーケンスを演算して第1結果値を算出し、前記入力時系列シーケンスの中で質疑応答で登場する人物に直接的に関連する部分に注意して第2結果値を算出し、前記入力時系列シーケンス、前記第1結果値、前記第2結果値及びブルフラグを連結して第3結果値を算出し、前記第3結果値に基づいて最終答案を選択する。
【0021】
さらに他の実施例によれば、コンピュータ質疑応答方法を実行するためのプログラムを記録したコンピュータ可読の記録媒体であり、質疑応答装置で遂行される質疑応答方法は、ビデオコンテンツ及び質疑応答対を含むデータセットが入力される段階と、前記入力されたデータセットの中で前記ビデオコンテンツから入力時系列シーケンスを生成し、前記入力されたデータセットの中で前記質疑応答対から質疑応答時系列シーケンスを生成する前処理段階と、前記入力時系列シーケンスと前記質疑応答シーケンスを関連させて加重値を計算し、前記計算された加重値と前記入力時系列シーケンスを演算して第1結果値を算出する段階と、前記入力時系列シーケンスの中で質疑応答で登場する人物に直接的に関連する部分に注意して第2結果値を算出する段階と、前記時系列シーケンス、前記第1結果値、前記第2結果値及びブルフラグを連結して第3結果値を算出し、前記第3結果値に基づいて最終答案を選択する段階とを含む。
【0022】
さらに他の実施例によれば、質疑応答装置によって遂行され、質疑応答方法を遂行するために記録媒体に記録されたコムピュトプログラムであり、質疑応答装置で遂行される質疑応答方法は、ビデオコンテンツ及び質疑応答対を含むデータセットが入力される段階と、前記入力されたデータセットの中で前記ビデオコンテンツから入力時系列シーケンスを生成し、前記入力されたデータセットの中で前記質疑応答対から質疑応答時系列シーケンスを生成する前処理段階と、前記入力時系列シーケンスと前記質疑応答シーケンスを関連させて加重値を計算し、前記計算された加重値と前記入力時系列シーケンスを演算して第1結果値を算出する段階と、前記入力時系列シーケンスの中で質疑応答で登場する人物に直接的に関連する部分に注意して第2結果値を算出する段階と、前記時系列シーケンス、前記第1結果値、前記第2結果値及びブルフラグを連結して第3結果値を算出し、前記第3結果値に基づいて最終答案を選択する段階とを含む。
【0023】
以下では添付図面に基づいて多様な実施例を詳細に説明する。以下で説明する実施例は様々な相異なる形態に変形されて実施されることもできる。実施例の特徴をより明確に説明するために、以下の実施例が属する技術分野で通常の知識を有する者に広く知られている事項についての詳細な説明は省略する。そして、図面で実施例の説明に関係ない部分は省略し、明細書全般にわたって類似の部分に対しては類似の図面符号を付けた。
【0024】
明細書全般で、ある構成が他の構成と連結されていると言うとき、これは直接的に連結されている場合だけではなく、その中間に他の構成を挟んで連結されている場合も含む。また、ある構成が他の構成を含むというとき、特に反対の記載がない限り、さらに他の構成を除くものではなくて他の構成をさらに含むこともできることを意味する。
【0025】
また、明細書に記載された“…部”、“…モジュール”という用語は少なくとも一つの機能又は動作を処理する単位を意味し、これはハードウェア、ソフトウェア又はハードウェア及びソフトウェアの組合せによって具現可能である。
【0026】
図1は一実施例によってビデオに対する質疑に対して最適の応答を算出するように構成されたデュアルマッチングマルチストリームモデル100及びデュアルマッチングマルチストリームモデル100におけるデータの流れを示す図、
図2は一実施例によるビデオに対する質疑に対して最適の応答を算出するための装置の構成を示す図である。
【0027】
まず、
図2に示す装置の構成について説明し、ついで
図2の装置が
図1のデュアルマッチングマルチストリームモデル100を構成し、これを用いてビデオに対する質疑に対して最適の応答を算出する方法について説明する。
【0028】
図2を参照すると、一実施例による質疑応答装置200は、記憶部210、入出力部220、制御部230、及び通信部240を含むことができる。
【0029】
記憶部210は、質疑応答に必要な各種のデータやプログラムを記憶することができる。記憶部210は、ビデオに対する質疑応答の学習過程に必要なデータセットを記憶することができる。
【0030】
また、記憶部210は、ビデオに対する質疑応答を学習し、それによって質疑に対する応答を遂行するようにするプログラムと、学習及び質疑応答に用いられるそれぞれのモデルや神経網に関連したデータを少なくとも一時保有するか更新することができる。
【0031】
一方、入出力部220は、データや使用者命令を受信し、使用者の入力によってデータを演算して処理した結果を出力する構成である。一実施例によれば、入出力部220は、キーボード、マウス、タッチパネルなどの使用者入力手段と、モニターやスピーカーなどの出力手段とを含むことができる。
【0032】
そして、制御部230はCPUなどのような少なくとも一つのプロセッサを含む構成であり、質疑応答装置200の全般的な動作及び構成を制御することができる。特に、制御部230は、記憶部210に記憶されたプログラムを実行するかデータを読み取ってビデオストーリーモデリングを遂行し、それによって質疑に対する適切な応答を選択することができる。
【0033】
特に、制御部230は、ビデオのイメージフレーム、スクリプト、感情及び行動データをそれぞれ分析してビデオストーリーをモデリングする。制御部230がビデオストーリーをモデリングし、それによって質疑応答を遂行する具体的な過程は追ってより具体的に説明する。
【0034】
一方、通信部240は、質疑応答装置200が他の装置とデータを交換するようにする構成である。通信部240は、制御部230が分析するビデオデータセットを受信するか、制御部230がビデオデータセットを分析するかこれを用いてビデオストーリーをモデリングする過程で必要な神経網に関連したデータを受信して提供することもできる。さらに、通信部240は、他の端末と通信し、他の端末から受信した質疑を制御部230に伝達するか、制御部230が演算して選択した応答を他の端末に提供することもできる。
【0035】
以下では、質疑応答装置200が遂行する質疑応答過程を具体的に説明する。ただ、これに先立ち、デュアルマッチングマルチストリームモデル100に用いるデータセットについて説明する。
図3は一実施例による質疑応答装置で使用するデータセットの一例を示す図である。
【0036】
まず、
図3に示すように、ビデオデータセット300は、質疑応答対データ307と、ビデオから出る3種のビデオコンテンツデータ301、303、305とを含むことができる。ここで、3種のビデオコンテンツデータは、話し手が表示されたスクリプトデータ301、行動及び感情についての視覚的メタデータ303、及びバウンディングボックスデータ305から構成される。
【0037】
質疑応答対データ307は、質問データと質問に対する複数の選択肢データとを含むことができる。話し手が表示されたスクリプトデータ301は、ビデオのせりふにおいて代名詞が示す対象が主要登場人物に相当すれば、その人物が誰であるかについての情報を提供する。視覚メタデータ303は主要登場人物の行動及び感情を含み、ビデオに存在する全てのフレームに人物の行動及び感情を示す注釈が存在する。行動及び感情の種類は予め定義されることができる。バウンディングボックス305は登場人物の顔部分を含むか全身を含んで表示するものであり、イメージ分析によって登場人物を識別するときに用いることができる。バウンディングボックス305は顔部分及び全身部分を含む2種が存在する。
【0038】
以下では、制御部230がビデオに対する質疑に対して最適の応答を算出するための過程を
図1に基づいて説明する。
【0039】
図1を参照すると、デュアルマッチングマルチストリームモデル100は、前処理部10、コンテキストマッチングモジュール20、キャラクターマッチングモジュール30、及び正解選択部40からなることが分かる。
【0040】
制御部230は、記憶部210に記憶されたプログラムを実行してデュアルマッチングマルチストリームモデル100を具現し、これによってビデオに対する質疑に対する最適の応答を算出する。
【0041】
1.前処理段階
前処理部10は、データセット300が入力されれば、前処理過程によって入力時系列シーケンス及び質疑応答時系列シーケンスを生成する。具体的な過程は次のようである。
【0042】
データセットが入力されれば、前処理部10は、データセットに含まれたデータをそれぞれ順に連結(Concatenation)して時系列データを生成する。一実施例によれば、データセットは、五肢選択の質疑応答対、ビデオから出る3種のビデオデータ(話し手が表示されたスクリプト、視覚的メタデータ(行動及び感情)、及びバウンディングボックス)から構成されることができる。
【0043】
前処理部10は、スクリプトの全ての単語、ビデオフレームの全ての行動及び感情、ビデオフレームの人物バウンディングボックス、質疑応答対の質問及び選択肢をそれぞれ順に連結(Concatenation)して時系列データにする。ここで、ビデオから出るスクリプト、視覚的メタデータ(行動及び感情)、バウンディングボックス関連時系列データは入力時系列データと定義し、質疑応答対の質問と選択肢関連の時系列データは質疑応答時系列データと定義する。
【0044】
前処理部10は、時系列データから単語ベクター及びイメージ特徴ベクターを抽出し、抽出されたベクターに時系列データの関連人物情報をワンホットベクターで連結(Concatenation)して関連人物の含まれた特徴ベクターを生成する。ここで、関連人物は、スクリプトの話し手、行動及び感情の対象人物、バウンディングボックスの対象人物などを指称する。一実施例によれば、前処理部10は、全ての時系列データに対し、単語は事前に学習されたグローブ(Glove)モデルで単語ベクターを抽出し、イメージは事前に学習されたResNet-18モデルでイメージ特徴ベクターを抽出する。抽出された単語ベクターやイメージ特徴ベクターに時系列データの関連人物についての情報をワンホットベクターで連結して関連人物の含まれた特徴ベクターを生成する。
【0045】
【0046】
2.コンテキストマッチングモジュール(Context Matching Module)
コンテキストマッチングモジュール20は、入力時系列シーケンスと質疑応答シーケンスを関連させて加重値を計算し、計算された加重値と入力時系列シーケンスと演算して第1結果値を算出する。
【0047】
【0048】
入力時系列シーケンスのうちスクリプト時系列シーケンスの第1結果値は下記のような数学式1及び数学式2によって算出される。
【0049】
【0050】
【0051】
【0052】
3.キャラクターマッチングモジュール(Character Matching Module)
キャラクターマッチングモジュール30は、入力時系列シーケンスで質疑応答から出る人物に直接的に関連する部分に注意して第2結果値を算出する。
【0053】
【0054】
具体的に、キャラクターマッチングモジュール30は、ドットプロダクト注意(Dot-product Attention)とマルチヘッド注意(Multi-Head Attention)を用いて第2結果値を算出する。
【0055】
【0056】
【0057】
【0058】
上述したドットプロダクト注意を遂行した後、マルチヘッド注意するためにドットプロダクト注意スコアを確張し、各投映ベクターに掛けてi番目ヘッドを計算する。これは数学式5で表現することができる。
【0059】
【0060】
2次元で全てのヘッドを連結(concatenation)し、入力時系列シーケンスと同じ次元を有するように投映を遂行する。これは数学式6で表現することができる。
【0061】
【0062】
マルチヘッド注意の結果は入力時系列シーケンスの次元と同一であり、入力と出力を合算することができ、これを標準化(Normalization)して第3結果値を算出する。これは数学式7で表現することができる。
【0063】
【0064】
【0065】
【0066】
【0067】
【0068】
【0069】
図4及び
図5は一実施例による質疑応答装置によって遂行される質疑応答方法を段階的に示す図である。
【0070】
同図に示すように、質疑応答装置200は、ビデオストーリーモデリングを遂行するビデオデータセットを受ける(S410)。
【0071】
ここで、データセットは質疑応答対とビデオから出る3種の時系列データを含むことができる。ここで、3種の時系列データは、話し手が表示されたスクリプトデータ、視覚的メタデータ(行動及び感情)、及び視覚バウンディングボックスデータから構成される。
【0072】
質疑応答装置200は、前処理過程によって入力時系列シーケンス及び質疑応答時系列シーケンスを生成する(S420)。S420段階で前処理過程を遂行する過程はさらにS501段階乃至S503段階に区分することができる。
【0073】
S420段階について図面5を参照して詳細に説明する。
【0074】
質疑応答装置200は、データセットに含まれたデータをそれぞれ順に連結(Concatenation)した時系列データを生成する(S501)。一実施例によれば、データセットは、五肢選択の質疑応答対、ビデオから出る3種の時系列データ(話し手が表示されたスクリプト、視覚的メタデータ(行動及び感情)、及び視覚バウンディングボックス)から構成されることができる。質疑応答装置200は、スクリプトの全ての単語、ビデオフレームの全ての行動及び感情、ビデオフレームの人物バウンディングボックス、質疑応答対の質問と選択肢をそれぞれ順に連結して時系列データにする。ここで、ビデオから出るスクリプト、視覚的メタデータ(行動及び感情)、及び視覚バウンディングボックス関連時系列データは入力時系列データと定義し、質疑応答対の質問と選択肢関連時系列データは質疑応答時系列データと定義する。
【0075】
質疑応答装置200は、時系列データから単語ベクター及びイメージ特徴ベクターを抽出し、抽出されたベクターに時系列データの毎時点関連人物の情報をワンホットベクターで連結(Concatenation)して関連人物の含まれた特徴ベクターを生成する(S502)。一実施例によれば、質疑応答装置10は、全ての時系列データに対し、単語は事前に学習されたグローブ(Glove)モデルで単語ベクターを抽出し、イメージは事前に学習されたResNet-18モデルでイメージ特徴ベクターを抽出する。質疑応答装置200は、抽出されたベクターでそれぞれの入力時系列データ及び質疑応答時系列データの関連人物をワンホットベクターに変えて時点ごとに連結(Concatenation)する。ここで、関連人物は、スクリプトの話し手、行動及び感情の対象人物、バウンディングボックスの対象人物などを指称する。
【0076】
【0077】
【0078】
【0079】
【0080】
質疑応答装置200は、第3結果値に基づいて最終答案を選択する(S460)。一実施例によれば、質疑応答装置10は第3結果値に互いに異なるKernel大きさを有する多くの1-D Convolutionフィルターを適用してMax-poolingを遂行し、これを線形(Linear)層にして各Aiに対する値oS、oM、oBを求め、これを全て合算して最大値を有する正解候補を最終正解として選択する。
【0081】
以上の実施例で使われる‘~部’という用語はソフトウェア又はFPGA(field programmable gate array)又はASICのようなハードウェア構成要素を意味し、‘~部’はある役割をする。しかし、‘~部’はソフトウェア又はハードウェアに限定される意味ではない。‘~部’はアドレス可能な記憶媒体にあるように構成されることもでき、一つ又はそれ以上のプロセッサを再生させるように構成されることもできる。よって、一例として、‘~部’はソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素及びタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラム特許コードのセグメント、ドライバー、ファームウエア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、及び変数を含む。
【0082】
構成要素及び‘~部’内で提供される機能はより小さな数の構成要素及び‘~部’と結合するか追加的な構成要素及び‘~部’から分離されることができる。
【0083】
それだけでなく、構成要素及び’~部’はデバイス又は保安マルチメディアカード内の一つ又はそれ以上のCPUを再生させるように具現されることもできる。
【0084】
図3~
図5に基づいて説明した実施例による質疑応答方法は、コンピュータによって実行可能な命令語及びデータを記憶する、コンピュータ可読の媒体の形態にも具現されることができる。ここで、命令語及びデータはプログラムコードの形態として記憶されることができ、プロセッサによって実行されたとき、所定のプログラムモジュールを生成して所定の動作を行うことができる。また、コンピュータ可読の媒体はコンピュータによってアクセス可能な任意の可用媒体であってもよく、揮発性及び非揮発性媒体、分離型及び非分離型媒体のいずれも含む。また、コンピュータ可読の媒体はコンピュータ記録媒体であってもよい。コンピュータ記録媒体はコンピュータ可読の命令語、データ構造、プログラムモジュール又はその他のデータのような情報の記憶のための任意の方法又は技術によって具現された揮発性及び非揮発性、分離型及び非分離型媒体のいずれも含むことができる。例えば、コンピュータ記録媒体は、HDD及びSSDなどのマグネチック記憶媒体、CD、DVD及びブルーレイディスクなどの光学的記録媒体、又はネットワークを介して接近可能なサーバーに含まれるメモリであってもよい。
【0085】
また、
図3~
図5に基づいて説明した実施例による質疑応答方法はコンピュータによって実行可能な命令語を含むコンピュータプログラム(又はコンピュータプログラム商品)で具現されることもできる。コンピュータプログラムはプロセッサによって処理されるプログラミング可能な機械命令語を含み、高レベルプログラミング言語(High-level Programming Language)、オブジェクト指向プログラミング言語(Object-oriented Programming Language)、アセンブリー言語又は機械言語などで具現されることができる。また、コンピュータプログラムは類型のコンピュータ判読可能記録媒体(例えば、メモリ、ハードディスク、磁気/光学媒体又はSSD(Solid-State Drive)など)に記録できる。
【0086】
したがって、
図3~
図5に基づいて説明した実施例による質疑応答方法は上述したようなコンピュータプログラムがコンピュータ装置によって実行されることによって具現されることができる。コンピュータ装置は、プロセッサと、メモリと、記憶装置と、メモリ及び高速拡張ポートに接続している高速インターフェースと、低速バスと記憶装置に接続している低速インターフェースの少なくとも一部を含むことができる。このような成分のそれぞれは多様なバスを用いて互いに接続されており、共通マザーボードに搭載されるか他の適切な方式で装着できる。
【0087】
ここで、プロセッサはコンピュータ装置内で命令語を処理することができる。このような命令語としては、例えば高速インターフェースに接続されたディスプレイのように外部入力及び出力装置上にGUI(Graphic User Interface)を提供するためのグラフィック情報を表示するためにメモリ又は記憶装置に記憶された命令語を有することができる。他の実施例として、多数のプロセッサ及び/又は多数のバスが適切に多数のメモリ及びメモリ形態と一緒に用いられることができる。また、プロセッサは独立的な多数のアナログ及び/又はデジタルプロセッサを含むチップからなるチップセットで具現されることができる。
【0088】
また、メモリはコンピュータ装置内に情報を記憶する。一例として、メモリは揮発性メモリユニット又はそれらの集合で構成されることができる。他の例として、メモリは不揮発性メモリユニット又はそれらの集合で構成されることができる。また、メモリは、例えば磁気又は光ディスクのような他の形態のコンピュータ可読の媒体であってもよい。
【0089】
そして、記憶装置はコンピュータ装置に大容量の記憶空間を提供することができる。記憶装置はコンピュータ可読の媒体であるかこのような媒体を含む構成であってもよく、例えばSAN(Storage Area Network)内の装置又は他の構成も含むことができ、フロッピーディスク装置、ハードディスク装置、光ディスク装置、又はテープ装置、フラッシュメモリー、それと類似した他の半導体メモリ装置又は装置アレイであってもよい。
【0090】
上述した実施例は例示のためのものであり、上述した実施例が属する技術分野の通常の知識を有する者は上述した実施例が有する技術的思想又は必須な特徴を変更しなくて他の具体的な形態に易しく変形可能であることを理解することができるであろう。したがって、上述した実施例は全ての面で例示的なもので、限定的なものではないことを理解しなければならない。例えば、単一型として説明されている各構成要素は分散されて実施されることもでき、同様に分散されたものとして説明されている構成要素も結合された形態に実施されることができる。
【0091】
本明細書によって保護を受けようとする範囲は前記詳細な説明よりは後述する特許請求範囲によって決定され、特許請求範囲の意味及び範囲とその均等な概念から導出される全ての変更又は変形の形態を含むものに解釈されなければならない。