(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-27
(54)【発明の名称】質問応答のためのシステム及び方法
(51)【国際特許分類】
H04N 21/854 20110101AFI20240820BHJP
H04N 21/472 20110101ALI20240820BHJP
H04L 51/02 20220101ALI20240820BHJP
H04L 51/10 20220101ALI20240820BHJP
【FI】
H04N21/854
H04N21/472
H04L51/02
H04L51/10
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024502504
(86)(22)【出願日】2022-07-27
(85)【翻訳文提出日】2024-02-02
(86)【国際出願番号】 EP2022071087
(87)【国際公開番号】W WO2023006820
(87)【国際公開日】2023-02-02
(32)【優先日】2021-07-28
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】518341334
【氏名又は名称】インターディジタル・シーイー・パテント・ホールディングス・ソシエテ・パ・アクシオンス・シンプリフィエ
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】ドゥオン、クアン カン ゴック
(72)【発明者】
【氏名】エンジン、デニス
(72)【発明者】
【氏名】シュニッツラー、フランソワ
(72)【発明者】
【氏名】アヴリティス、ヤニス
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164MC01P
5C164SB29S
5C164SB41S
5C164UB83S
5C164UD12S
5C164UD41P
5C164YA21
(57)【要約】
例えば、ビデオコンテンツに関するユーザからのクエリに対する回答を提供するための方法及びシステム。システムは、クエリを受信し、質問に対応するビデオクリップを生成し、ユーザに提示するためのビデオクリップを提供する。質問は、例えば、TVシリーズ若しくは映画における事象に関するもの、又はビデオ監視システムによって録画された活動に関するものとすることができる。
【特許請求の範囲】
【請求項1】
方法であって、
-ユーザから発信されているクエリを受信することと、
-質問に対する回答に対応するビデオクリップを生成することと、
-前記ユーザへの提示のために前記ビデオクリップを提供することと、を含む、方法。
【請求項2】
前記クエリが、ビデオコンテンツの少なくとも1つの項目に関する質問である、請求項1に記載の方法。
【請求項3】
前記クエリが、ビデオコンテンツの前記少なくとも1つの項目における少なくとも1つの事象に関するものである、請求項2に記載の方法。
【請求項4】
前記ビデオクリップが、ビデオコンテンツの前記少なくとも1つの項目から生成される、請求項2に記載の方法。
【請求項5】
前記ビデオクリップが、ビデオコンテンツの前記少なくとも1つの項目の少なくとも1つのビデオセグメントから生成される、請求項4に記載の方法。
【請求項6】
前記クエリに対する前記回答が、ビデオコンテンツの前記少なくとも1つの項目を分析することによって取得される、請求項2に記載の方法。
【請求項7】
前記少なくとも1つのビデオ項目が、ビデオ質問応答を使用して分析される、請求項6に記載の方法。
【請求項8】
初期質問を第1のフォーマットで処理して、前記質問を第2のフォーマットで取得することを更に含む、請求項2に記載の方法。
【請求項9】
前記処理することが、前記初期質問を変換すること及び解釈することのうちの少なくとも一方を含む、請求項8に記載の方法。
【請求項10】
前記ビデオクリップを生成することが、前記少なくとも1つのビデオセグメントを編集すること及び組み合わせることのうちの少なくとも一方を含む、請求項5に記載の方法。
【請求項11】
前記少なくとも1つのビデオセグメントが、複数のビデオセグメントの中で前記回答に最も寄与する、請求項5に記載の方法。
【請求項12】
前記ビデオクリップ及びビデオコンテンツの前記少なくとも1つの項目が、前記ユーザに同時に提供される、請求項2に記載の方法。
【請求項13】
前記ビデオクリップ及びビデオコンテンツの前記少なくとも1つの項目が、ピクチャインピクチャ技術を使用して提供される、請求項12に記載の方法。
【請求項14】
前記クエリに対するテキスト回答を前記ユーザに提供することを更に含む、請求項1に記載の方法。
【請求項15】
システムであって、
ユーザから発信されているクエリを受信するように構成されたインターフェースと、
プロセッサであって、
-前記質問に対する回答に対応するビデオクリップを生成することと、
-前記ユーザへの提示のために前記ビデオクリップを提供することと、を行うように構成されたプロセッサと、を備える、システム。
【請求項16】
前記クエリが、ビデオコンテンツの少なくとも1つの項目に関する質問である、請求項15に記載のシステム。
【請求項17】
前記クエリが、ビデオコンテンツの前記少なくとも1つの項目における少なくとも1つの事象に関するものである、請求項16に記載のシステム。
【請求項18】
前記プロセッサが、ビデオコンテンツの前記少なくとも1つの項目から前記ビデオクリップを生成するように構成されている、請求項16に記載のシステム。
【請求項19】
前記プロセッサが、ビデオコンテンツの前記少なくとも1つの項目の少なくとも1つのビデオセグメントから前記ビデオクリップを生成するように構成されている、請求項18に記載のシステム。
【請求項20】
前記プロセッサが、ビデオコンテンツの前記少なくとも1つの項目を分析することによって、前記クエリに対する前記回答を取得するように構成されている、請求項16に記載のシステム。
【請求項21】
前記プロセッサが、ビデオ質問応答を使用して前記少なくとも1つのビデオ項目を分析するように構成されている、請求項20に記載のシステム。
【請求項22】
前記プロセッサが、初期質問を第1のフォーマットで処理して、前記質問を第2のフォーマットで取得するように更に構成されている、請求項16に記載のシステム。
【請求項23】
前記プロセッサが、前記初期質問を変換すること及び解釈することのうちの少なくとも一方によって前記初期質問を処理するように構成されている、請求項22に記載のシステム。
【請求項24】
前記プロセッサが、前記少なくとも1つのビデオセグメントを編集すること及び組み合わせることのうちの少なくとも一方によって、前記ビデオクリップを生成するように構成されている、請求項19に記載のシステム。
【請求項25】
前記少なくとも1つのビデオセグメントが、複数のビデオセグメントの中で前記回答に最も寄与する、請求項19に記載のシステム。
【請求項26】
前記プロセッサが、前記ビデオクリップ及びビデオコンテンツの前記少なくとも1つの項目を前記ユーザに同時に提供するように更に構成されている、請求項16に記載のシステム。
【請求項27】
前記プロセッサが、ピクチャインピクチャ技術を使用して、前記ビデオクリップ及びビデオコンテンツの前記少なくとも1つの項目を提供するように更に構成されている、請求項26に記載のシステム。
【請求項28】
前記ビデオクリップを前記ユーザにレンダリングするためのディスプレイを更に備える、請求項15に記載のシステム。
【請求項29】
前記プロセッサが、前記ユーザに、前記クエリに対するテキスト回答を提供するように更に構成されている、請求項15に記載のシステム。
【請求項30】
命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令が実行されたときに、少なくとも1つのハードウェアプロセッサに、請求項1~14のいずれか一項に記載の方法を実施させる、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、人工知能に関し、具体的にはビデオ質問応答に関する。
【背景技術】
【0002】
この節は、以下に説明及び/又は特許請求される本開示の様々な態様に関連し得る様々な技術の態様を読者に紹介することを意図している。この考察は、本開示の様々な態様のより良好な理解を容易にするための背景情報を読者に提供する上で有用であると考えられる。したがって、これらの記述は、この観点から読まれるべきであり、先行技術の承認として読まれるべきではないことを理解されたい。
【0003】
高い通信帯域幅及び高度なスマート技術によってサポートされているビデオストリーミングサービスは、Netflix、Amazon Prime Video、Apple TV、Disney+、Saltoなどのようなますます多くのビッグプレーヤとともに出現し続けている。ビデオオンデマンドは、ユーザが、ストリーミングサービスを介して自分のCEデバイス(スマートTV、スマートフォン、タブレット、PCなど)上でいつでも見たいコンテンツを何でも自由に選択することができるという明確な傾向になっている。大量のコンテンツ(すなわち、多くのエピソードを有するTVシリーズ、長い映画)に起因して、ユーザは、全てのコンテンツに完全には集中しないか、又は見ないときに、重要な情報を見逃す場合がある(例えば、ユーザは、TV番組/映画を見ながら、電話をかけるか、料理するか、若しくは他のことを行うことがあるか、又は多くの場合、全エピソードを見逃す場合さえある)。このような状況では、現在のコンテンツを体験し、重要な情報が見落とされたことを認識するとき、ユーザは、質問応答(question-answering、QA)インターフェースを介して、CEデバイス(スマートTVなど)に、ユーザが要求する見落とされた情報に関する要約を提供するように要求することを望む場合がある。
【0004】
人工知能(artificial intelligence、AI)の進歩によって強く支持され、質問応答は近年、生活体験の改善のために出現し、人々は、CEデバイスと通信するためのシームレスなインターフェースを求めている。QAは、Amazon Echo、Google Home、Facebook Postalなどのスマートホームデバイスにおいて重要な機能となっている。しかしながら、現在のデバイスは、メディアへのアクセス、単純なタスクの管理、及び一日の計画などの単純なことをユーザが実施することを助けるために、(自動音声認識技術を使用して)ユーザコマンドをキャプチャするためにマイクロフォンを利用する傾向がある。
【0005】
生活支援のための出発点として、視覚的質問応答(visual question answering、VQA)[例えば、Aishwarya Agrawal,「VQA:Visual Question Answering」2016、arXiv:1505.00468v7、及びYash Goyal et al.,「Making the V in VQA Matter:Elevating the Role of Image Understanding in Visual Question Answering,」2017,arXiv:1612.00837v3を参照]並びに視覚対話[例えば、A.Das et al.,「Visual dialog,」 Proc.CVPR 2017を参照]は、視覚コンテンツに関する会話言語で人間との有意義な対話を有するために人工知能(AI)システムを必要とし、研究コミュニティによって最近注目されている。
【0006】
単純なケースでは、入力画像及びその画像に関する自然言語質問が与えられた場合、VQAタスクは、正確な自然言語回答を提供することである。ごく最近になって、ユーザがビデオに何が含まれているか、又は何が起こっているかに関する質問をすることができるビデオに移行し、Fanらは、ディープニューラルネットワーク(deep neural network、DNN)を介したエンドツーエンドの訓練可能なビデオ質問応答(Video Question Answering、ビデオQA)フレームワークを提案した[Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answeringを参照]。「Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions」において、Garcia及びNakashimaは、動画データベースを対象とする別のDNNベースのKnowledge-Based Video Question Answeringを提示し、これは、異なるモダリティ、すなわち、現在のシーン対話、生成されたビデオシーン記述、及び人間の専門家によって生成された外部知識、特にプロットの要約から計算された回答スコアを融合することによって回答を提供する。Leiらは、6つの人気のあるTV番組から大規模なTVQAデータセットを構築し、これにより、実際のTV番組に適用されるビデオQA研究が可能になる[TVQA:Localized,Compositional Video Question Answeringを参照]。「On the hidden treasure of dialog in video question answering」において、Enginらは、対話推論を介してビデオにおけるストーリー全体を理解するための新しい手法を提案した。ビデオQAは、通常、複雑な事象を理解するために、対話又は画像ベースのQAよりも高いレベルの推論を必要とすることに留意されたい。
【0007】
しかしながら、質問に対するテキスト応答を取得することは、ユーザにとって不満足なものである場合がある。したがって、回答システムの欠点のうちの少なくともいくつかに対処する解決策が望まれていることが理解されよう。本原理は、かかる解決策を提供する。
【発明の概要】
【0008】
第1の態様では、本原理は、ユーザから発信されているクエリを受信することと、質問に対する回答に対応するビデオクリップを生成することと、ユーザに提示するためにビデオクリップを提供することと、を含む方法を対象とする。
【0009】
第2の態様では、本原理は、ユーザから発信されているクエリを受信するように構成されたインターフェースと、質問に対する回答に対応するビデオクリップを生成することと、ユーザに提示するためにビデオクリップを提供することと、を行うように構成されたプロセッサと、を備えるシステムを対象とする。
【0010】
第3の態様では、本原理は、コンピュータプログラム製品であって、非一時的コンピュータ可読媒体に記憶され、第1の態様のいずれかの実施形態による方法のステップを実施するためにプロセッサによって実行可能なプログラムコード命令を含む、コンピュータプログラム製品を対象とする。
【図面の簡単な説明】
【0011】
ここで、本原理の特徴を、添付の図面を参照して、非限定的な例として説明する。
【
図1】本原理の一実施形態による、回答生成及び提示のためのシステムを例示する。
【
図2A】本原理の一実施形態による異なる実装形態を例示する。
【
図2B】本原理の一実施形態による異なる実装形態を例示する。
【
図2C】本原理の一実施形態による異なる実装形態を例示する。
【
図3】本原理の一実施形態による、回答生成のためのシステムを例示する。
【
図4】本原理の一実施形態による、ユーザ質問に対してビデオ回答を提供するための方法を例示する。
【発明を実施するための形態】
【0012】
例えば、ビデオコンテンツに関する質問(本明細書全体を通して使用される)などのクエリに回答することは、多くの場合、現在若しくは過去を見ること、又は過去を記憶することを要求する。ビデオQAにおける最近の進歩により、コンピュータシステムがこの複雑なタスクを自動的に実施することが可能になる。回答を検索するとき、ビデオQAはまた、回答に最も寄与するビデオセグメントをローカライズすることもできる。
【0013】
本原理によれば、ビデオQAはまた、ユーザの質問に対する回答、例えば、回答を説明又は表示することに対応する1つ以上のキービデオセグメント(例えば、開始フレーム及び終了フレームインデックスを有する)を抽出する。これらのキービデオセグメントは、メインスクリーン、すなわち、ユーザがコンテンツを見ているか、若しくは典型的には(例えば、ピクチャインピクチャモードを使用して)コンテンツを見るスクリーン上で、又は第2のスクリーン上でユーザに提示される。キービデオセグメントは、例えば、ビデオストリーミングサービスを介してコンテンツを見ている間、及び/又は知的CEデバイスと相互作用している間、ユーザ体験を向上させることができる。
【0014】
図1は、本原理の一実施形態によるシステム100を例示する。
【0015】
ユーザ100は、当該技術分野でよく知られているように、音声(例えば、発話)、テキスト(例えば、キーボードを使用してタイプされる)、又はジェスチャ(例えば、手話)を使用して質問(又は複数の質問)10を質問入力デバイス120に入力することができる。
【0016】
質問入力デバイス120(例えば、スマートTV、スマートフォン、PC、スマートホームアシスタントなど)は、従来の解決策(例えば、自動音声認識)を使用して、ユーザ100が入力した質問10を、システム100で、特にビデオQAシステム130によって理解可能なプレーンテキストなどのフォーマットの処理済み質問20に変換又は解釈することができる。
【0017】
ビデオQAシステム130は、処理済み質問20を受信し、ビデオデータベース140内のビデオコンテンツを分析して、例えば、質問に対するテキスト(すなわち、非ビデオ)であり得る関連する回答を見つける。ビデオQAシステム130は、典型的には、マルチモーダルな埋め込み/記述(音声、視覚、及びテキスト情報のための)、ビデオの重要な部分に焦点を当てるための時間的な注意及びローカライズ、並びにマルチモーダル融合及び推論に焦点を当てるディープニューラルネットワーク(DNN)アーキテクチャを有する。これは、Lei及びEnginが提案したものなどの最新のAI/MLモデルによって実装することができ、背景の節を参照されたい。
【0018】
上述したように、従来のQAシステムが行うようなテキスト回答(書面又は音声)を提供する代わりに、本原理によるビデオQAシステムは、場合によってはこのようなテキスト回答に加えて、1つ以上のキービデオセグメントを含むビデオクリップ30を提供する。ビデオクリップは、例えば、数秒から数分の長さであり、回答を強調表示する1つ又はいくつかの事象(例えば、ストリーミングされたコンテンツ内のビデオセグメント又は家庭環境でカメラによって録画されたビデオセグメント)に対応することができる。
【0019】
キービデオセグメントの選択は、既に述べたように、回答に最も寄与する1つ以上のセグメントに基づくことができる。キービデオセグメントは、ビデオクリップ30を取得するために、従来の方法を使用して、編集され、組み合わせることができる。
【0020】
代替として、キービデオセグメントの選択は、関連するビデオを出力するようにシステムを直接訓練することによって実現され得る。例えば、1つ以上の正解をラベルとして使用するのではなく、訓練手順では、適切なビデオクリップの開始及び終了をラベルとして使用するか、又は1つ若しくは複数のビデオクリップを説明するための任意の他の方法を使用する。
【0021】
ビデオクリップ30は、例えば、ストリーミングを使用して、ビデオクリップ30を処理して処理済みビデオクリップ40をユーザレンダリングデバイス160に出力するように構成されたビデオコンテンツレンダラ150、例えば、デコーダに提供される。
【0022】
ユーザレンダリングデバイス160は、対応するビデオクリップをユーザ110に表示(すなわち、レンダリング、提示)するように構成されている。ユーザレンダリングデバイス160は、例えば、ビデオコンテンツをメインコンテンツとして視聴している間に、又はメインコンテンツとして、ピクチャインピクチャを使用してビデオクリップを提示することができるメインスクリーン(例えば、タブレット又はスマートTV)とすることができる。また、ユーザレンダリングデバイス160は、メインスクリーンとは異なる第2のスクリーン、例えば、スマートフォン又はタブレットとすることもできる。
【0023】
少なくとも質問入力デバイス120、ビデオコンテンツレンダラ150、及びユーザレンダリングデバイス160のうちの2つ以上は、様々な方式で組み合わせることができることに留意されたい。例えば、タブレットは、ユーザの質問を受信し、ビデオクリップを受信及びレンダリングするために使用され得るデバイスにおいて、これらの3つ全てを実装することができる。
【0024】
図2A~
図2Cは、本原理の一実施形態による異なる実装形態を例示する。これらの実施形態は、
図1に例示されるビデオQAシステム及びビデオコンテンツレンダラの異なる分布に対応する。
【0025】
図2Aは、ビデオQAシステム及びビデオコンテンツレンダラ、並びに場合によっては質問及び回答のための更なる事前処理機能及び事後処理機能が、回答がユーザに表示されるCEエッジデバイス200とは別個のエッジハブ210においてどのように実装されるかを例示する。
【0026】
図2Bは、ビデオQAシステム及びビデオコンテンツレンダラ、並びに場合によっては質問及び回答のための更なる事前処理機能及び事後処理機能が、回答がユーザに表示されるCEエッジデバイス200とは別個のクラウド220においてどのように実装されるかを例示する。
【0027】
図2Cは、質問事前処理、ビデオコンテンツレンダラ、及び回答事後処理ステップが、エッジハブ210において実装される一方で、典型的により多くの計算リソースを必要とするビデオQAブロックが、クラウド220に位置している一実施形態を例示し、回答は、依然としてCEエッジデバイス200上でユーザに提供される。
【0028】
エッジハブ210は、スマートTV、ゲートウェイ、STB、スマートアシスタント、又はスタンドアロンデバイスのようなデバイスにおいて実装することができる。したがって、エッジハブ210及びCEエッジデバイス200は、単一のデバイスとして実装することができることに留意されたい。
【0029】
図3は、本原理の一実施形態による、回答生成のためのシステム300を例示する。システム300は、典型的には、ユーザ入力インターフェース310と、少なくとも1つのハードウェアプロセッサ(「プロセッサ」)320と、メモリ330と、ネットワークインターフェース340と、を含む。デバイス300は、ディスプレイインターフェース又はディスプレイ350を更に含むことができる。非一時的記憶媒体370は、コンピュータ可読命令を記憶し、このコンピュータ可読命令がプロセッサによって実行されたときに、
図4に説明される方法を参照して説明される方法を実施する。
【0030】
ユーザ入力インターフェース310は、例えば、マイクロフォン、キーボード、マウス、タッチスクリーン、又は2つ以上の入力手段の組み合わせとして実装することができ、ユーザからの入力を受信するように構成されている。プロセッサ320は、本原理のうちの少なくとも1つの方法による方法を実施するためのプログラムコード命令を実行するように構成されている。少なくとも部分的に非一時的であり得るメモリ330は、プロセッサ320によって実行されるプログラムコード命令、パラメータ、画像データ、中間結果などを記憶するように構成されている。ネットワークインターフェース340は、有線又は無線の任意の好適な接続380を介して外部デバイス(図示せず)と通信するように構成されている。
【0031】
図4は、本原理の一実施形態による、ユーザ質問に対してビデオ回答を提供するための方法400を例示する。本方法は、典型的には、ビデオQAシステム(
図1の130)によって実施される。
【0032】
ステップS410では、ビデオQAシステムは、ユーザから発信されている質問を受信する。質問が(十分に)処理されていない場合、このステップは、ビデオQAシステムによって使用可能な質問を取得するための処理を含むことができる。
【0033】
ステップS420では、ビデオQAシステムは、既に説明したように、質問に対する関連する回答を見つけるためにビデオデータベース内のビデオコンテンツを分析する。
【0034】
ステップS430では、ビデオQAシステムは、関連するビデオセグメント、すなわち、回答に(最も)寄与するビデオセグメントからビデオクリップを生成する。
【0035】
ステップS440では、ビデオQAシステムは、生成されたビデオクリップを、場合によっては、ビデオクリップをユーザにレンダリングすることになっているエンドデバイスに配信するための別の形態(例えば、テキスト)の回答とともに提供(すなわち、送信)する。
【0036】
スマートTVアシスタント
一実施形態では、ユーザは、TV番組、映画、スポーツ番組などで何が起こったかに関する情報又は回答について質問することができる。
【0037】
TV番組を例にとると、ユーザは、以前のエピソードの一部又はそれ以上を見逃している場合があり、それに関する情報を欲している。Garcia及びNakashimaによって提示されたKnowIT VQA、又はEnginらによって説明されたものなどの最近の手法は、ビデオQAシステムが1つ以上のビデオシーン、エピソード、又はTV番組全体に関連する質問に回答することを可能にする。このようなシステムはまた、設計されたアーキテクチャにおける時間的な注意機構のために、回答に関連する少なくとも1つのビデオセグメントを、TV画面において視覚化することができるように、ローカライズすることを可能にする。TV番組又は映画の場合、対話(字幕の形態で)及び人間が生成したプロットの要約は、通常、知識に関する質問に回答する助けとなる高レベルの重要な情報源として利用可能である。
【0038】
したがって、ユーザは質問を入力することができ、この質問に対して、ビデオQAシステムは、要約などの視覚コンテンツで応答し、場合によっては、ナラティブなスピーチなどの更なる情報を伴う。
【0039】
ホームアシスタント
また、ビデオ録画は、支援又は監視目的のために家庭環境において利用可能とすることができる。
【0040】
一実施形態では、親などのユーザは、例えば、自分の子供達が日中何をしたのか、誰がテレビをつけっぱなしにしたのか、配信がどのように行われたか、又は特定の物体がどこにあるのか(かつそれがどのようにしてそこに置かれることになったのか)を知ることに関心がある場合がある。この場合、ユーザは、録画されたビデオデータベースの視覚情報を分析して、関連するビデオセグメントを見つけてスクリーン上に表示するスマートホームアシスタントデバイスに質問をすることができる。上記の例では、これらのセグメントは、それぞれ、子供達が何をしたのか、最後にテレビ領域を離れた人、配信の様子、又は物体をある場所に置いたままにした人を示すことができる。
【0041】
また、Leiら、Garcia及びNakashima、並びにEnginらによって提供されるものなどのビデオQA技法は、(TV番組の場合のように対話又はプロットの要約からのテキスト情報なしに)ビデオシーンのみから抽出された視覚情報を用いて動作することもでき、したがって、これらの技法は、このホーム設定において実装され得ることに留意されたい。
【0042】
また、クエリは、必ずしも具体的なビデオ項目にリンクされていない他の事象に関するものとすることができる。例えば、クエリは、特定の場所の天気に関するものとすることができ、その場合、回答は、質問の場所の天気を示すビデオとすることができる。
【0043】
理解されるように、機能は、単一のデバイスにおいて実装することができるか、又は複数のデバイスにわたって、家庭において、エッジハブ及び/若しくはクラウドにおいて分割することができる。
【0044】
理解されるように、本実施形態は、質問応答システムを改善することができる。
【0045】
図に示される要素は、様々な形態のハードウェア、ソフトウェア、又はそれらの組み合わせで実装され得ることを理解されたい。好ましくは、これらの要素は、1つ以上の適切にプログラムされた汎用デバイス上のハードウェア及びソフトウェアの組み合わせで実装され、プロセッサ、メモリ、及び入力/出力インターフェースを含み得る。
【0046】
本明細書は、本開示の原理を例示する。したがって、当業者は、本明細書に明示的に説明又は図示されていないが、本開示の原理を具現化し、その範囲内に含まれる様々な構成を考案することができることが理解されよう。
【0047】
本明細書に列挙される全ての例及び条件付き言語は、本開示の原理及び当該技術分野を促進するために発明者によって寄与される概念を読者が理解することを助ける教育目的を意図しており、かかる具体的に列挙された例及び条件に限定されるものではないものとして解釈されるべきである。
【0048】
更に、本開示の原理、態様、及び実施形態を列挙する本明細書における全ての記述、並びにその具体的な例は、その構造的均等物及び機能的均等物の両方を包含することが意図される。加えて、かかる均等物は、現在既知である均等物、並びに将来開発される均等物、すなわち、構造を問わず、同じ機能を実施する、開発される任意の要素の両方を含むことが意図される。
【0049】
したがって、例えば、本明細書に提示されるブロック図は、本開示の原理を具現化する例示的な回路の概念図を表すことが当業者には理解されよう。同様に、任意のフローチャート、フロー図などは、コンピュータ可読媒体で実質的に表され、かかるコンピュータ又はプロセッサが明示的に示されているかどうかにかかわらず、コンピュータ又はプロセッサによって実行され得る様々なプロセスを表すことが理解されよう。
【0050】
図に示される様々な要素の機能は、専用のハードウェア、並びに適切なソフトウェアと関連してソフトウェアを実行することができるハードウェアの使用を通じて提供され得る。プロセッサによって提供される場合、機能は、単一の専用プロセッサによって、単一の共有プロセッサによって、又は複数の個々のプロセッサによって提供され得、そのいくつかは、共有され得る。更に、「プロセッサ」又は「コントローラ」という用語の明示的な使用は、ソフトウェアを実行することができるハードウェアを排他的に指すと解釈されるべきではなく、デジタル信号プロセッサ(digital signal processor、DSP)ハードウェア、ソフトウェアを記憶するための読み取り専用メモリ(read only memory、ROM)、ランダムアクセスメモリ(random access memory、RAM)、及び不揮発性記憶装置を暗黙的に含み得るが、これらに限定されない。
【0051】
従来の及び/又はカスタムの他のハードウェアも含まれ得る。同様に、図に示されるいずれのスイッチも、概念的なものに過ぎない。それらの機能は、プログラム論理の動作を通じて、専用論理の動作を通じて、プログラム制御及び専用論理との対話を通じて、又は手動でさえ実行され得、特定の技術は、その文脈からより具体的に理解されるように、実装者によって選択可能である。
【0052】
本明細書の特許請求の範囲において、特定の機能を実施するための手段として表される任意の要素は、例えば、a)その機能を実施する回路要素の組み合わせ、又はb)その機能を実施するためにそのソフトウェアを実行するための適切な回路と組み合わされた、ファームウェア、マイクロコードなどを含む任意の形態のソフトウェアを含む、その機能を実施する任意の方式を包含することが意図される。かかる特許請求の範囲によって定義される本開示は、様々な列挙される手段によって提供される機能性が、特許請求の範囲が要求する様式で組み合わされ、まとめられるという事実に存する。したがって、それらの機能性を提供することができるいずれの手段も、本明細書に示されるものと均等であるとみなされる。
【手続補正書】
【提出日】2024-03-19
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサによって実施される方法であって、
-TV番組のエピソードであるビデオコンテンツの提供中に、前記TV番組の以前のエピソードに関する質問を受信することであって、前記質問が、ユーザから発信される、受信することと、
-前記質問に対する回答に対応するビデオクリップを生成することと、
-前記ユーザへの提示のために前記ビデオクリップを提供することと、を含む、方法。
【請求項2】
前記質問が、前記TV番組の前記以前のエピソードにおける少なくとも1つの事象に関するものである、請求項1に記載の方法。
【請求項3】
前記ビデオクリップが、前記TV番組の前記以前のエピソードから生成される、請求項1に記載の方法。
【請求項4】
前記ビデオクリップが、前記TV番組の前記以前のエピソードの少なくとも1つのビデオセグメントから生成される、請求項3に記載の方法。
【請求項5】
前記質問に対する前記回答が、前記TV番組の前記以前のエピソードを分析することによって取得される、請求項1に記載の方法。
【請求項6】
前記ビデオクリップを生成することが、前記少なくとも1つのビデオセグメントを編集すること及び組み合わせることのうちの少なくとも一方を含む、請求項4に記載の方法。
【請求項7】
前記ビデオクリップ及び前記ビデオコンテンツが、前記ユーザに同時に提供される、請求項1に記載の方法。
【請求項8】
前記ビデオクリップ及び前記ビデオコンテンツが、ピクチャインピクチャ技術を使用して提供される、請求項7に記載の方法。
【請求項9】
前記ビデオコンテンツが、第1のスクリーン上に提供され、前記ビデオクリップが、第2のスクリーン上に提供される、請求項7に記載の方法。
【請求項10】
前記質問に対するテキスト回答を前記ユーザに提供することを更に含む、請求項1に記載の方法。
【請求項11】
システムであって、
TV番組のエピソードであるビデオコンテンツの提供中に、前記TV番組の以前のエピソードに関する質問を受信するように構成されたインターフェースであって、前記質問が、ユーザから発信される、インターフェースと、
プロセッサであって、
-前記質問に対する回答に対応するビデオクリップを生成することと、
-前記ユーザへの提示のために前記ビデオクリップを提供することと、を行うように構成されたプロセッサと、を備える、システム。
【請求項12】
前記質問が、前記TV番組の前記以前のエピソードにおける少なくとも1つの事象に関するものである、請求項11に記載のシステム。
【請求項13】
前記プロセッサが、前記TV番組の前記以前のエピソードから前記ビデオクリップを生成するように構成されている、請求項11に記載のシステム。
【請求項14】
前記プロセッサが、前記TV番組の前記以前のエピソードの少なくとも1つのビデオセグメントから前記ビデオクリップを生成するように構成されている、請求項13に記載のシステム。
【請求項15】
前記プロセッサが、前記TV番組の前記以前のエピソードを分析することによって、クエリに対する前記回答を取得するように構成されている、請求項11に記載のシステム。
【請求項16】
前記プロセッサが、前記少なくとも1つのビデオセグメントを編集すること及び組み合わせることのうちの少なくとも一方によって、前記ビデオクリップを生成するように構成されている、請求項14に記載のシステム。
【請求項17】
前記プロセッサが、前記ビデオクリップ及び前記ビデオコンテンツを前記ユーザに同時に提供するように更に構成されている、請求項11に記載のシステム。
【請求項18】
前記プロセッサが、ピクチャインピクチャ技術を使用して、前記ビデオクリップ及び前記ビデオコンテンツを提供するように更に構成されている、請求項17に記載のシステム。
【請求項19】
前記ビデオコンテンツが、第1のスクリーン上に提供され、前記ビデオクリップが、第2のスクリーン上に提供される、請求項17に記載の方法。
【請求項20】
命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令が実行されたときに、少なくとも1つのハードウェアプロセッサに、請求項1~9のいずれか一項に記載の方法を実施させる、非一時的コンピュータ可読記憶媒体。
【国際調査報告】