IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特許7069778ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム
<>
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図1
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図2
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図3
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図4
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図5A
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図5B
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図5C
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図6A
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図6B
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図7
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図8
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図9A
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図9B
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図9C
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図10
  • 特許-ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-10
(45)【発行日】2022-05-18
(54)【発明の名称】ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム
(51)【国際特許分類】
   G06F 16/78 20190101AFI20220511BHJP
   G06F 16/70 20190101ALI20220511BHJP
   H04N 21/2183 20110101ALI20220511BHJP
   H04N 21/258 20110101ALI20220511BHJP
   G10L 15/10 20060101ALI20220511BHJP
   G10L 15/00 20130101ALI20220511BHJP
【FI】
G06F16/78
G06F16/70
H04N21/2183
H04N21/258
G10L15/10 200W
G10L15/00 200T
【請求項の数】 19
(21)【出願番号】P 2018020516
(22)【出願日】2018-02-07
(65)【公開番号】P2019003604
(43)【公開日】2019-01-10
【審査請求日】2021-01-21
(31)【優先権主張番号】15/619,347
(32)【優先日】2017-06-09
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】ジェニファー メロー
(72)【発明者】
【氏名】ローラン ドゥヌ
(72)【発明者】
【氏名】スコット カーター
(72)【発明者】
【氏名】マシュー クーパー
(72)【発明者】
【氏名】アブラハミ ダニエル
【審査官】佐賀野 秀一
(56)【参考文献】
【文献】特開2004-212895(JP,A)
【文献】特開2007-264789(JP,A)
【文献】特開2016-015026(JP,A)
【文献】米国特許出願公開第2014/0161416(US,A1)
【文献】米国特許出願公開第2008/0270344(US,A1)
【文献】米国特許出願公開第2010/0332499(US,A1)
【文献】米国特許出願公開第2014/0123014(US,A1)
【文献】特開2005-115607(JP,A)
【文献】特開2010-135925(JP,A)
【文献】特開2011-071809(JP,A)
【文献】特開2005-038328(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 - 16/958
H04N 21/2183
H04N 21/258
G10L 15/10
G10L 15/00
(57)【特許請求の範囲】
【請求項1】
プロセッサが、
ビデオデータを含む記録されたビデオに関連付けられた質問を識別することと、
前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することと、
前記1又は複数の答えのビデオセグメントの各々へのリンクであって、前記信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、を含み、
前記信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することは、
前記プロセッサが、
前記記録されたビデオ内の前記質問の時間を判定することと、
前記質問に続く、関連する単語を伴う前記質問に対する1又は複数の答えのビデオセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、を含む、
方法。
【請求項2】
前記ビデオデータを分析することは、前記プロセッサが、前記ビデオデータの音声コンテンツ内のキーワードを検出することを含む、請求項1に記載の方法。
【請求項3】
前記記録されたビデオに関連付けられた前記質問が、前記ビデオデータの列から抽出され、前記ビデオデータを分析することがさらに、
前記プロセッサが、
講演者の前記ビデオデータの列との相互作用を追跡することと、
前記相互作用に基づき、前記信頼度スコアを調整することと、を含む、請求項1に記載の方法。
【請求項4】
前記ビデオデータの列との前記相互作用を追跡することは、視線追跡、スクリーン上での動作の分析、動作の検出、及び音声同期の少なくとも1つを使用する、請求項3に記載の方法。
【請求項5】
プロセッサが、
ビデオデータを含む記録されたビデオに関連付けられた質問を識別することと、
前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することと、
前記1又は複数の答えのビデオセグメントの各々へのリンクであって、前記信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、を含み、
前記信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することは、
前記プロセッサが、
前記記録されたビデオ内の前記質問の時間を判定することと、
前記質問に続く、関連する単語を伴うセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、
前記質問に対する関連性と前後関係の分析とに基づいて、候補となるセグメントの順序リストを生成することと、
前記順序リスト内の候補となるセグメントのうち、閾値の個数の前記候補となるセグメントの開始時間を返すことと、を含む、
方法。
【請求項6】
前記前後関係の分析は、
前記候補となるセグメントの、前記質問の時間に対する時間的近さと、
前記候補となるセグメントの、講演者による前記ビデオデータの列との検出された相互作用に対する時間的近さと、
前記記録されたビデオの視聴者からのフィードバックと、
前記候補となるセグメントの視覚コンテンツの、前記質問に対する関連性と、のうちの少なくとも1つの分析を含む、請求項5に記載の方法。
【請求項7】
前記ビデオデータが、前記記録されたビデオからの音声コンテンツ又は視覚コンテンツのトランスクリプトである、請求項1に記載の方法。
【請求項8】
前記プロセッサが、
前記トランスクリプト内の代名詞を識別することと、
前記代名詞を、前後関係の分析を使用して、前記トランスクリプト内の先行するトピック、又は、メッセージのログからのメッセージに関連付けることと、をさらに含む、請求項7に記載の方法。
【請求項9】
前記プロセッサが、前記記録されたビデオに関連付けられた前記質問を前記ビデオデータの列から抽出するために、構文解析を実行することをさらに含む、請求項1に記載の方法。
【請求項10】
記録されたビデオに関連付けられた前記質問が、記録されたビデオの再生の間に視聴者から受信され、前記方法がさらに、
前記プロセッサが、
前記ビデオデータからのメッセージのログを分析して、メッセージの信頼度スコアを満たす1又は複数のメッセージを判定することと、
前記判定されたメッセージに関連付けられた前記ビデオデータに基づいて前記質問に関する前記信頼度スコアを計算することと、を含む、請求項1に記載の方法。
【請求項11】
前記プロセッサが、
前記順位付けされたリンクの1つに関連付けられている時点の前記記録されたビデオを提供することをさらに含む、請求項1に記載の方法。
【請求項12】
前記プロセッサが、前記順位付けされたリンクの1つに関連付けられた位置における、前記記録されたビデオに対する字幕として、前記質問のテキストを挿入することをさらに含む、請求項1に記載の方法。
【請求項13】
前記プロセッサが、相互作用インターフェースにより、前記質問の受信に対応する時点の前記記録されたビデオを再生することをさらに含む、請求項1に記載の方法。
【請求項14】
前記プロセッサが、視聴者からのフィードバックに基づき、前記リンクの順位付けを調整することをさらに含む、請求項1に記載の方法。
【請求項15】
メモリと、
前記メモリに動作可能に結合したプロセッサであって、
ビデオデータを含む記録されたビデオに関連付けられた質問を識別することと、
前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することと、
前記1又は複数の答えのビデオセグメントの各々へのリンクであって、信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、
を実行するように構成されている、プロセッサと、を備え、
前記信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することは、
前記プロセッサが、
前記記録されたビデオ内の前記質問の時間を判定することと、
前記質問に続く、関連する単語を伴う前記質問に対する1又は複数の答えのビデオセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、を含む、
システム。
【請求項16】
メモリと、
前記メモリに動作可能に結合したプロセッサであって、
ビデオデータを含む記録されたビデオに関連付けられた質問を識別することと、
前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することと、
前記1又は複数の答えのビデオセグメントの各々へのリンクであって、信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、
を実行するように構成されている、プロセッサと、を備え、
前記信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することは、
前記記録されたビデオ内の前記質問の時間を判定することと、
前記質問に続く、関連する単語を伴うセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、
前記質問に対する関連性と前後関係の分析とに基づいて、候補となるセグメントの順序リストを生成することと、
前記順序リスト内の候補となるセグメントのうち、閾値の個数の前記候補となるセグメントの開始時間を返すことと、を含む、
システム。
【請求項17】
前記前後関係の分析は、
前記候補となるセグメントの、前記質問の前記時間に対する時間的近さと、
前記候補となるセグメントの、講演者による前記ビデオデータの列との検出された相互作用に対する時間的近さと、
前記記録されたビデオの視聴者からのフィードバックと、
前記候補となるセグメントの視覚コンテンツの、前記質問に対する関連性と、のうちの少なくとも1つの分析を含む、請求項16に記載のシステム。
【請求項18】
前記記録されたビデオに関連付けられた前記質問が、前記ビデオデータの列から抽出され、前記プロセッサがさらに、前記ビデオデータを分析するために、
講演者の前記ビデオデータの列との相互作用を追跡し、
前記相互作用に基づき、前記信頼度スコアを調整する、請求項15に記載のシステム。
【請求項19】
プロセッサに、
ビデオデータを含む記録されたビデオに関連付けられた質問であって、前記ビデオデータの列から抽出される質問を識別することと、
前記記録されたビデオ内の前記質問の位置に基づいて、前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することと、
前記1又は複数の答えのビデオセグメントの各々へのリンクであって、前記信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、を実行させ、
前記信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することは、
前記プロセッサに、
前記記録されたビデオ内の前記質問の時間を判定することと、
前記質問に続く、関連する単語を伴う前記質問に対する1又は複数の答えのビデオセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、を実行させる
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、ビデオベースの通信に関し、より詳細には、ビデオベースの通信からのコンテンツのキュレーションのための方法、システム及びプログラムに関する。
【背景技術】
【0002】
ライブ・ビデオ・ストリーミング、又は、遠隔の聴講者とのライブビデオの共有は、普及してきており、エンターテインメントから医療教育までの範囲の、多くの目的のために使用され得る。通常、講演者は、ビデオストリームを遠隔の多くの聴講者に放送する。たとえば、大規模オンライン公開講座(massive open online course、MOOC)は、インターネットを介しての無制限の参加とオープンなアクセスとを目的とするオンラインコースであり、聴講者の相互作用を含む場合がある。例として、ライブ・ビデオ・ストリーミングのMOOCセッションは、講演者のビデオフィード及び音声フィードについて参加者が質問を提出して、講演者が答えを提供するための、チャットウィンドウを含み得る。さらに別の例では、著名人が、仮想的にファンに会い、挨拶し、世界中からのメッセージに応えるために、ライブ・ビデオ・ストリーミングを使用する場合がある。
【0003】
従来技術では、ライブ・ビデオ・ストリーミング専用のツールにより、たとえば、テキストメッセージの送信、エモティコン(emoticon、すなわち「反応」を表す顔文字、絵文字等)の共有、投票調査への回答、又は、講演者への送付のための仮想ギフトの購入により、遠隔の聴講者が講演者とコミュニケーションすることを可能にしている。ライブ・ビデオ・ストリーム中の聴講者の相互作用は、コミュニケーションの集中を生じさせる。従来技術の研究により、講演者が一般に、入ってくるメッセージに積極的に反応することを試みるが、講演者は、多数のメッセージが短い間隔で提示される場合に、すぐにインターフェースから消えるメッセージを見落とす場合があるか、メッセージのトピックが講演者の現在の一連の考えに関連しない場合、そのメッセージを却下する場合があることが示されている。各研究により、オープンフォーマットのイベント(たとえば、オフィスアワー、質問受付(ask me anything)、タウンホールなど)と比較すると、構成されたトピックのプレゼンテーション(たとえば、専門的又は教育的なプレゼンテーション)の間においては、聴講者のコミュニケーションに応じるに際し講演者がより大きい困難性(たとえば、イベントが妨げられる、放送の中断等)に直面することもわかっている。従来技術のライブ・ビデオ・ストリーミング・ツールが、応答時間の遅れ、及び、講演者によって返答がされない質問の増大の一因になっている。講演者が、コミュニケーションからの情報を消費して、議論に寄与するような関連するメッセージを識別することは、困難である場合がある。
【0004】
さらに、質問に対する答えを含むビデオストリームの記録は、チャットウィンドウにおいて質問が提示された時間と、講演者がビデオの中で応答した時間との間の遅れに起因して、検索が困難である。記録されたMOOCセッションのビデオをリプレイしている視聴者が、特定のトピックの議論、又は質問に対する答えを探している場合、視聴者は通常、ビデオ全体をリプレイして、チャットに提示された質問を監視し、講演者がその質問に対処したかどうかを見出すためにある時間の間、積極的に視聴することとなる。
【0005】
したがって、ライブストリーミングのプラットフォーム及び記録されたビデオ上で継続されている活動への、聴講者の注目を向上させつつ、ユーザの関与、及び、ビデオとの相互作用を向上させて、大人数のグループの設定に参加することを許容するために、ツールが必要である。
【先行技術文献】
【特許文献】
【0006】
【文献】米国特許第9084096号明細書
【文献】米国特許第6028601号明細書
【非特許文献】
【0007】
【文献】BLEI, D. M.他、”Latent Dirichlet Allocation”、Journal of Machine Learning Research、2003年3月、p.993-1022
【文献】CAO, J.他、”Automated Question Answering From Lecture Videos:NLP vs. Pattern Matching”、Proceedings of the 38th Hawaii International Conference on System Sciences、2005年、p.1-8
【文献】CATALDI, M.他、”Emerging Topic Detection on Twitter Based on Temporal and Social Terms Evaluation”、MDMKDD’10 Proceedings of the 10th International Workshop on Multimedia Data Mining、Article 4、(米国)、2010年7月25日、全10頁
【文献】CHUANG, J.他、”Without the Clutter of Unimportant Words:Descriptive Keyphrases for Text Visualization”、ACM Transactions on Computer-Human Interaction、19(3)、Article 19、2012年10月、全29頁
【文献】FULLER, M. Y.他、”Using the Periscope Live Video-Streaming Application for Global Pathology Education”、Arch Pathol Lab Med、140、2016年11月、p.1273-1280
【文献】HAMILTON, W. A.他、”Streaming on Twitch: Fostering Participatory Communities of Play within Live Mixed Media”、CHI’l4 Proceedings of the SIGCHI Conference on Human Factors in Computing Systems、(カナダ)、2014年4月26日-5月1日、p.1315-1324
【文献】HAUBOLD. A.他、”Augmented Segmentation and Visualization for Presentation Videos”、Multimedia ’05、Proceedings of the 13th Annual ACM International Conference on Multimedia、(シンガポール)、2005年11月6日-11日、p.51-60
【文献】JURAFSKY, D.他、”Speech and Language Processing: An Introduction to Natural Language Processing, computational Linguistics, and Speech Recognition”、第2版、Pearson Educational International、2000年、全14頁
【文献】LAVRENKO, V.他、”Relevance Models for Topic Detection and Tracking”、Proceedings of HLT 2002、Second International Conference on Human Language Technology Research、(米国)、2002年、p.115-121
【文献】LI, G.他、”Video Conference: Question Answering on YouTube”、MM’09 Proceedings of the 17th ACM International Conference on Multimedia、(中華人民共和国)、2009年10月19日-24日、p.773-776
【文献】PAN, R.他、”Twitch Viz:A Visualization Tool for Twitch Chatrooms”、CHI EA ’16 Proceedings of the 2016 CHl Conference Extended Abstracts on Human Factors in Computing Systems、(米国)、2016年5月7日-12日、p.959-1965
【文献】PAVEL, A.他、”Video Digests: A Browsable, Skimmable Format for Informational Lecture Videos”、UIST ’14 proceedings of the 27th Annual ACM Symposium on User Interface Software and Technology,(米国)、2014年10月5日-8日、p.573-582
【文献】RAMESH. A.他、”Understanding MOOC Discussion Forums Using Seeded LDA”、Proceedings of the Ninth workshop on Innovation Use of NLP for Building Education Applications、(米国)、2014年6月26日、p.28-33
【文献】REPP, S.他、”Question Answering from Lecture Videos Based on Automatically-Generated Learning Objects”、ICWL ’08 proceedings of the 7th International Conference on Advances in the Web Based Learning、(中華人民共和国)、2008年8月20日-22日、p. 509-520.
【文献】TANG, J. C.他、”Meerkat and Periscope:I Stream, You Stream, Apps Stream for Live Streams”、CHl’l6 Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems、(米国)、2016年5月7日-12日、p.4770-4780
【文献】WANG, K.他、”Exploiting Salient Patterns for Question Detection and Question Retrieval in Community-Based Question Answering”、COLING ’10 Procedings of the 23rd International Conference on Computational Linguistics、(中華人民共和国)、2010年8月23日-27日、p.1155-1163
【文献】MANNING,C.D.他、”Introduction to Information Retrieval”、第6章、(米国)、Cambridge University Press、2008年、全26頁
【文献】HOU, J. L.他、”An Automatic Question Answering and Knowledge Summarization Approach for Q & A Services”、Journal of Chinese Institute of Engineers, 32(2)、2009年3月、p.193-213
【文献】YouTube Super Chat, YouTube.com、[online]、[2017年6月9日検索] 全3頁、インターネット〈URL: https://support.google.com/youtube/ answer/7277005?hl=en〉
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、記録されたビデオに関連付けられた質問を識別し、質問に対する答えのビデオセグメントへのリンクを伴う答えの概要を生成することを含む方法、システム、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の第一の態様は、プロセッサが、ビデオデータを含む記録されたビデオに関連付けられた質問を識別することと、前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することと、前記1又は複数の答えのビデオセグメントの各々へのリンクであって、前記信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、を含む、方法である。
【0010】
本発明の第二の態様は、第一の態様の方法であって、前記ビデオデータを分析することは、前記プロセッサが、前記ビデオデータの音声コンテンツ内のキーワードを検出することを含む。
【0011】
本発明の第三の態様は、第一の態様の方法であって、前記記録されたビデオに関連付けられた前記質問が、前記ビデオデータの列から抽出され、前記ビデオデータを分析することがさらに、前記プロセッサが、講演者の前記ビデオデータの列との相互作用を追跡することと、前記相互作用に基づき、前記信頼度スコアを調整することと、を含む。
【0012】
本発明の第四の態様は、第三の態様の方法であって、前記ビデオデータの列との前記相互作用を追跡することは、視線追跡、スクリーン上での動作の分析、動作の検出、及び音声同期の少なくとも1つを使用する。
【0013】
本発明の第五の態様は、第一の態様の方法であって、前記信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することは、前記プロセッサが、前記記録されたビデオ内の前記質問の時間を判定することと、前記質問に続く、関連する単語を伴うセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、前記質問に対する関連性と前後関係の分析とに基づいて、候補となるセグメントの順序リストを生成することと、前記順序リスト内の候補となるセグメントのうち、閾値の個数の前記候補となるセグメントの開始時間を返すことと、を含む。
【0014】
本発明の第六の態様は、第五の態様の方法であって、前記前後関係の分析は、前記候補となるセグメントの、前記質問の時間に対する時間的近さと、前記候補となるセグメントの、講演者による前記ビデオデータの列との検出された相互作用に対する時間的近さと、前記記録されたビデオの視聴者からのフィードバックと、前記候補となるセグメントの視覚コンテンツの、前記質問に対する関連性と、のうちの少なくとも1つの分析を含む。
【0015】
本発明の第七の態様は、第一の態様の方法であって、前記ビデオデータが、前記記録されたビデオからの音声コンテンツ又は視覚コンテンツのトランスクリプトである。
【0016】
本発明の第八の態様は、第七の態様の方法であって、前記プロセッサが、前記トランスクリプト内の代名詞を識別することと、前記代名詞を、前後関係の分析を使用して、前記トランスクリプト内の先行するトピック、又は、メッセージのログからのメッセージに関連付けることと、をさらに含む。
【0017】
本発明の第九の態様は、第一の態様の方法であって、前記プロセッサが、前記記録されたビデオに関連付けられた前記質問を前記ビデオデータの列から抽出するために、構文解析を実行することをさらに含む。
【0018】
本発明の第十の態様は、第一の態様の方法であって、記録されたビデオに関連付けられた前記質問が、記録されたビデオの再生の間に視聴者から受信され、前記方法がさらに、前記プロセッサが、前記ビデオデータからのメッセージのログを分析して、メッセージの信頼度スコアを満たす1又は複数のメッセージを判定することと、前記判定されたメッセージに関連付けられた前記ビデオデータに基づいて前記質問に関する前記信頼度スコアを計算することと、を含む。
【0019】
本発明の第十一の態様は、第一の態様の方法であって、前記プロセッサが、前記順位付けされたリンクの1つに関連付けられている時点の前記記録されたビデオを提供することをさらに含む。
【0020】
本発明の第十二の態様は、第一の態様の方法であって、前記プロセッサが、前記順位付けされたリンクの1つに関連付けられた位置における、前記記録されたビデオに対する字幕として、前記質問のテキストを挿入することをさらに含む。
【0021】
本発明の第十三の態様は、第一の態様の方法であって、前記プロセッサが、相互作用インターフェースにより、前記質問の受信に対応する時点の前記記録されたビデオを再生することをさらに含む。
【0022】
本発明の第十四の態様は、第一の態様の方法であって、前記プロセッサが、前記視聴者からのフィードバックに基づき、前記リンクの順位付けを調整することをさらに含む。
【0023】
本発明の第十五の態様は、メモリと、前記メモリに動作可能に結合したプロセッサであって、ビデオデータを含む記録されたビデオに関連付けられた質問を識別することと、前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することと、前記1又は複数の答えのビデオセグメントの各々へのリンクであって、信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、を実行するように構成されている、プロセッサと、を備えたシステムである。
【0024】
本発明の第十六の態様は、第十五の態様のシステムであって、前記信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することは、前記記録されたビデオ内の前記質問の時間を判定することと、前記質問に続く、関連する単語を伴うセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、前記質問に対する関連性と前後関係の分析とに基づいて、候補となるセグメントの順序リストを生成することと、前記順序リスト内の候補となるセグメントのうち、閾値の個数の前記候補となるセグメントの開始時間を返すことと、を含む。
【0025】
本発明の第十七の態様は、第十六の態様のシステムであって、前記前後関係の分析は、前記候補となるセグメントの、前記質問の前記時間に対する時間的近さと、前記候補となるセグメントの、講演者による前記ビデオデータの列との検出された相互作用に対する時間的近さと、前記記録されたビデオの視聴者からのフィードバックと、前記候補となるセグメントの視覚コンテンツの、前記質問に対する関連性と、のうちの少なくとも1つの分析を含む。
【0026】
本発明の第十八の態様は、第十五の態様のシステムであって、前記記録されたビデオに関連付けられた前記質問が、前記ビデオデータの列から抽出され、前記プロセッサがさらに、前記ビデオデータを分析するために、前記講演者の前記ビデオデータの列との相互作用を追跡し、前記相互作用に基づき、前記信頼度スコアを調整する。
【0027】
本発明の第十九の態様は、プロセッサに、ビデオデータを含む記録されたビデオに関連付けられた質問であって、前記ビデオデータの列から抽出される質問を識別することと、前記記録されたビデオ内の前記質問の位置に基づいて、前記ビデオデータを分析して、信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することと、前記1又は複数の答えのビデオセグメントの各々へのリンクであって、前記信頼度スコアに基づいて順位付けされているリンクを伴う、前記質問に対する答えの概要を生成することと、を実行させるプログラムである。
【0028】
本発明の第二十の態様は、第十九の態様のプログラムであって、前記信頼度スコアを満たす、前記質問に対する1又は複数の答えのビデオセグメントを判定することは、前記記録されたビデオ内の前記質問の時間を判定することと、前記質問に続く、関連する単語を伴うセグメントを識別するために、前記質問の前記時間の後に生じた前記ビデオデータを検索することと、前記質問に対する関連性と前後関係の分析とに基づいて、候補となるセグメントの順序リストを生成することと、前記順序リスト内の候補となるセグメントのうち、閾値の個数の前記候補となるセグメントの開始時間を返すことと、を含む。
【0029】
本発明の他の特徴及び利点は、以下の詳細な説明及び添付図面により、当業者にとってより容易に明らかになるであろう。
【発明の効果】
【0030】
本発明によれば、記録されたビデオに関連付けられた質問を識別し、質問に対する答えのビデオセグメントへのリンクを伴う答えの概要を生成することを含む方法、システム、及びプログラムが提供される。
【図面の簡単な説明】
【0031】
例示的実施態様の構造及び作用は、以下の詳細な説明及び添付図面により理解されるであろう。添付図面において、同様の参照符号は同様の部分を示している。
【0032】
図1】例示的実施態様に係る、システムの概観を示す図である。
図2】例示的実施態様に係る、例示的キュレーションエンジンを示す図である。
図3】例示的実施態様に係る、講演者インターフェースを生成するためのフロー図である。
図4】例示的実施態様に係る、ライブのプレゼンテーションの間の、メッセージのキュレーションのためのフロー図である。
図5A】例示的実施態様に係る、例示的講演者インターフェースを示す図である。
図5B】例示的実施態様に係る、例示的講演者インターフェースを示す図である。
図5C】例示的実施態様に係る、例示的講演者インターフェースを示す図である。
図6A】例示的実施態様に係る、例示的講演者インターフェースを示す図である。
図6B】例示的実施態様に係る、例示的講演者インターフェースを示す図である。
図7】例示的実施態様に係る、記録されたビデオセッションからの答えのキュレーションのためのフロー図である。
図8】例示的実施態様に係る、記録されたビデオセッションからの答えのキュレーションのためのフロー図である。
図9A】例示的実施態様に係る、キュレーションがされた答えにアクセスするための視聴者インターフェースの例示的描写を示す図である。
図9B】例示的実施態様に係る、キュレーションがされた答えにアクセスするための視聴者インターフェースの例示的描写を示す図である。
図9C】例示的実施態様に係る、キュレーションがされた答えにアクセスするための視聴者インターフェースの例示的描写を示す図である。
図10】例示的実施態様における使用に適切な例示的コンピュータ装置を含む例示的サーバコンピュータ環境を示す図である。
図11】例示的実施態様における使用に適切な例示的コンピュータ装置を含む例示的ネットワーク環境を示す図である。
【発明を実施するための形態】
【0033】
以下の詳細な説明は、本出願の図及び例示的実施態様をさらに詳細に示している。各図間における重複する要素の参照符号及び記載は、明確化のために省略している。本記載を通して使用される用語は、例として提供されるものであり、限定を意図するものではない。たとえば、「自動(automatic)」の用語の使用は、本出願の実施態様を実行する当業者の所望の実施態様に応じて、完全に自動であるか、実施態様の一部に対してユーザ又はオペレータの制御を伴う半自動である実施態様を伴ってもよい。
【0034】
デジタルコンテンツの指数関数的増大により、人々が、関連する情報を効率的に特定し、消費することを可能にすることに対する新たなハードルが形成されている。ビデオコミュニケーションは、通常、情報の消費レートを向上させるが、検索可能なテキストと比較すると、検索ツールに乏しいことから、問題が生じる。ビデオコミュニケーションにより、講演者がコンテンツを多くの聴講者に送ることが許容される。しかし、講演者は、大規模オンライン公開講座(MOOC)における教育的なプレゼンテーションの間などに、多くの聴講者から受信するメッセージの量に圧倒される場合がある。したがって、リアルタイムのビデオ会議の間、講演者が多くの聴講者と相互作用することを可能にするツールが必要である。さらに、MOOCの講義などの、記録されたビデオコミュニケーションにおける質問に対する答えを特定するために、ツールが必要である。
【0035】
本開示の例示的態様は、ビデオベースの通信における質問のキュレーションのためのツールに関する。コンテンツのキュレーションは、特定のテーマ又はトピックに基づく、意味があり、かつアクセス可能なコンテンツの選択を提供するための、大量のコンテンツにわたるソートのプロセスである。本明細書に記載のように、コンテンツのキュレーションは、前後関係を識別するためのデータの分析、コンテンツのグループ間の相関の判定、並びに、効率的な検索及び/又はカスタマイズされたプレゼンテーションのためのコンテンツの注釈を伴う。キュレーションされたコンテンツは、普通ならライブ・ビデオ・ストリーミング・セッション又は記録されたビデオアーカイブの間にアクセス不可能であるニーズ又は質問に対処するために、関連するコンテンツへの効率的なアクセスを許容する場合がある。
【0036】
例示的実施態様では、講演者には、ライブ・ビデオ・ストリーム中に、より効率的に、より複雑なトピックを伴う多数のユーザのコミュニケーションを知らせることができるツールが提供される。例示的実施態様によれば、入ってくるメッセージは、キーワード及びトピックに関して分析され、異なるタイプのコメントに分類され、また、講演者への提示のためにグループ分けされる。このツールは、リアルタイムで、メッセージからの情報を講演者が消費することを補助するための様々な視覚化技術を含んでいる。
【0037】
プレゼンテーションのビデオセッションは、講演者(たとえば、ライブ・ストリーミング・セッションを開始したユーザ)が司会を務めるか、主催する。ビデオセッションを開始したユーザは、一般に「講演者」と呼ばれ、視聴者からのチャットメッセージ及び反応を受け取る者である。プレゼンテーションのビデオセッションは、講演者が聴講者とビデオストリームを共有している(たとえば、送信している)場合、時間を参照し、聴講者は、チャットメッセージ、支払い、ギフト、エモティコンなどを通して反応又は相互作用する。
【0038】
ライブ・ストリーミング・セッションは、非同期性視聴のためにアーカイブされるか、されない場合がある。本開示の態様は、講演者がメッセージ列(message queue)に完全に注意を向ける必要なしに、聴講者に効率的に応答するために、講演者にキュレーションされたメッセージを提供することを目的としている。例示的実施態様には、講演者に対しコンテンツをより見やすくするために、コンテンツを自動的に管理し、聴講者からの入力を受信する、キュレーション方法が含まれる。実施態様には、講演者がコンテンツを却下するか保存すること、及び、視聴者が、メッセージ列からのメッセージに関連付けられたコンテンツのセグメントを中継することを可能にするインターフェースが含まれている。たとえば、キュレーション方法により、質問、挨拶、意見、確認、要求、不明など、チャットインターフェースを介して受信した各メッセージを検出し、それらに分類区分を割り当て、また、少なくともその分類区分を使用して、講演者のインターフェースを調整するか、ビデオセグメントにリンクすることができる。
【0039】
例示的実施態様によれば、ライブ・ビデオ・ストリームの間に提示されたメッセージは、トピックモデルに従って管理される。講演者又は主催者のためのインターフェースは、トピックの速度、量、及びコンテンツに基づき、視聴グループからのメッセージを効率的に管理するためのツールを含んでいる。一例では、講演者インターフェースは、トピックのエモティコンの視覚化を伴う講演者ダッシュボード、動的メッセージ列、活動を重ね合わせたもの(overlay、たとえばマップ)などを含んでいる。たとえば、グループとのライブ・ストリーミング・セッションの間、このツールは、トレンディング・トピック(trending topic)に対する講演者の応答性を最大化するために、グループとのリアルタイムの相互作用を許容し得る講演者インターフェースを生成する。講演者インターフェースは、ライブ・ビデオ・ストリーミング・セッションの間、視聴者の関与及び応答性を向上させ得る。
【0040】
別の例示的実施態様によれば、記録されたビデオからのトピックは、非同期性視聴のためのプレイバックナビゲーションを伴うトピックモデルに従って管理される。視聴者ツールは、質問及び/又はトピックを扱っている、記録されたビデオの関連する部分を効率的に特定するために提供されている。記録されたビデオが分析され、信頼度スコアの観点から、質問に対するコンテンツの関連性に基づき、ビデオのセグメントにアクセスするためのリンクが生成される。例示的実施態様では、記録されたビデオの分析には、記録されたビデオからのメッセージヒストリ内の質問の特定、並びに、講演者からの関連する応答を含むセグメントを識別するためのビデオフィード及び/又は音声フィードの分析が含まれる。識別されたセグメントは、信頼度スコアに基づき、順序リスト(たとえば、ランキング)を生成するためのさらなる処理を経る。信頼度スコアは、記録の間の、メッセージ列のインターフェースに対する講演者の注意度の追跡などの、前後関係の要素に基づく重みである。
【0041】
たとえば、質問がメッセージ列に現れた後に、ビデオフィードが、講演者が質問をレビューしたことを示してもよい。後に、講演者の音声フィードが、質問からのキーワード又はフレーズをリピートしてもよく、これにより、該当するセグメントが、メッセージ列からの質問に答えることに関連することを示す。プロセスにより、質問と、判定されたビデオのセグメントとの間のリンクが生成され得る。機械学習及び視聴者のフィードバックに基づき、関連するビデオのセグメントが、記録されたビデオの間に答えられた質問に関してまとめられ得る。したがって、視聴者は、ビデオの記録を冒頭から見直すことなく、速やかかつ容易に、記録されたビデオの中で対処された質問を識別し、速やかに、質問に対処している関連するビデオのセグメントを検索することができる。
【0042】
例示的実施態様によれば、視聴者インターフェースは、順位付けされた一連のビデオセグメントに質問をリンク付けする、質問の概要を含む場合がある。たとえば、教授がMOOCセッションを記録した後に、このツールが、記録された視聴者インターフェースを生成し、これにより、記録されたビデオとの非同期性相互作用を可能にする。視聴者インターフェースにより、ユーザが、記録されたビデオのライブラリに対して検索される質問を入力することが可能になる。記録されたビデオで対処された質問のキュレーションにより、視聴の関与と理解を向上させる、記録されたコンテンツとの効率的な相互作用を可能にし得る。
【0043】
図1は、例示的実施態様に係る、システム100の概観を示す図である。システム100は、ネットワーク102を介しての、又は、ビデオライブラリ105eからのビデオコンテンツを分析するように構成されたキュレーションエンジン110を含んでいる。キュレーションエンジン110は、1又は複数の装置105a~105nからのビデオストリームを分析し、キュレーションされたコンテンツとのカスタマイズされたインターフェースを提供することができる。キュレーションエンジン110は、ネットワーク102を介する遠隔の、1又は複数の装置105a~105d、クラウドサービス105n、若しくは、当業者に既知である他の構成などの、1又は複数の処理装置上で実行されるソフトウェア(たとえば、非一時的コンピュータ可読媒体上の命令)の形態で実施され得る。
【0044】
「コンピュータ」、「コンピュータプラットフォーム」、「処理装置」、及び「装置」との用語は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、メインフレームコンピュータ、サーバ、手持ち式装置、デジタル信号プロセッサ(DSP)、組込型プロセッサ、又は、データの処理が可能な任意の他の装置などの、任意のデータ処理装置を含むことが意図されている。コンピュータ/コンピュータプラットフォームは、1又は複数の非一時的コンピュータ可読媒体及び1又は複数のネットワークと通信可能に接続された1又は複数のマイクロプロセッサを含むように構成されている。
【0045】
キュレーションエンジン110は、直接的又は間接的に、データ記憶装置(複数の場合もある)103(たとえば、RAM、ROM、並びに/又は内部記憶装置、磁気、光学、固体記憶装置、及び/若しくは有機体)などのメモリを含んでいる。これらの内のいずれも、情報通信のために、通信機構(又はバス)上で結合され得る。
【0046】
例示的実施態様では、キュレーションエンジン110は、クラウドサービス105nによってホストされ、データの送受信のために、装置105a~105nにネットワーク102を介して通信可能に接続され得る。「通信可能に接続(communicatively connected)」の用語は、データが通信され得る、有線又は無線の、いかなるタイプの接続をも含むことが意図されている。「通信可能に接続」の用語は、限定ではないが、単一のコンピュータ内の装置及び/若しくはプログラム間の接続、又は、ネットワーク102を介した各装置及び/若しくは別々のコンピュータ間の接続を含むことが意図されている。「ネットワーク」の用語は、限定ではないが、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)、TCP/IP(インターネット)などのパケット交換ネットワークを含むことが意図され、また、限定ではないが、WiFi(登録商標)、Bluetooth(登録商標)、Zigbee(登録商標)、Low power Wireless Area Networks over Internet Protocol version 6(6LowPAN)、power line communication(PLC)、イーサネット(登録商標)(たとえば、10メガバイト(Mb)、100Mb、及び/若しくは1ギガバイト(Gb)のイーサネット(登録商標))、又は他の通信プロトコルなどの様々な伝送手段を使用することができる。
【0047】
装置105a~105nは、たとえば、モバイル・コンピュータ・装置105a~105b(たとえば、スマートフォン、ラップトップ、タブレットなど)、プレゼンテーションシステム105c、コンピュータ装置105d(たとえば、デスクトップ、メインフレーム、ネットワーク設備など)、マルチメディアライブラリ105e、及び、クラウドサービス105n(たとえば、遠隔で利用可能な専有の又は共有のコンピュータ・リソース)を含み得る。装置105a~105nは、たとえば、ビデオデータ及びメッセージデータを収集し、伝送し、及び/又は記録する機能を有するビデオ・ストリーミング・サービスにアクセスすることができる。たとえば、モバイル・コンピュータ・装置105aは、カメラを含み、ネットワーク102を介して、他の装置105a、105b、105c、105d、105n上の視聴者にライブ・ビデオ・ストリームを提供するように、ライブ・ビデオ・ストリーミング・サービス105nにアクセスすることができる。
【0048】
装置105a~105nは、1又は複数の他の装置105a~105nから情報(たとえば、メッセージデータ、フィードバックデータなど)を集め、集められた情報をキュレーションエンジン110に提供する場合もある。たとえば、装置105a~105nは、WiFi(登録商標)、Bluetooth(登録商標)、Zigbee(登録商標)、Low power Wireless Area NetworksにわたるInternet Protocol version 6(6LowPAN)、power line communication(PLC)、イーサネット(登録商標)(たとえば、10メガバイト(Mb)、100Mb、及び/若しくは1ギガバイト(Gb)のイーサネット(登録商標))、又は他の通信プロトコルを使用して、他の装置に通信可能に接続することができる。
【0049】
キュレーションエンジン110は、ライブ・ストリーミング・ビデオの間、及び、記録されたビデオセッションのプレイバックの間に、ビデオ情報のキュレーションを行う。例示的実施態様では、キュレーションエンジン110は、(たとえば、装置105a~105d又はクラウドサービス105nを介して)ビデオ・ストリーミング・セッションにアクセスし、又は、記録されたビデオセッション(たとえば、ビデオライブラリ105e)にアクセスし、本明細書に記載のように、1又は複数のアルゴリズムに従ってビデオデータを処理し、また、キュレーションされたメッセージデータへのアクセスを提供する。一実施態様では、ビデオ・ストリーミング・セッションに関する、キュレーションされたメッセージデータは、図2~6を参照して記載されるように、講演者インターフェースを介して提供される。一実施態様では、記録されたビデオセッションに関する、キュレーションされたメッセージデータは、図2及び図6~9を参照して記載されるように、ミーティングの概要、又は視聴者インターフェースを介して提供される。
【0050】
図2は、例示的実施態様に係る、キュレーションエンジン210を含む例示的システム200を示している。キュレーションエンジン210は、1又は複数の入出力インターフェース212、インターフェースモジュール215、メッセージ・サポート・システム230、及びフィードバックモジュール240を含んでいる。キュレーションエンジン210は、データ(たとえば、情報、モデル、フィードバック、ビデオファイルなど)を記憶するために1又は複数のデータ記憶装置203に結合されている。キュレーションエンジン210は、メッセージ内のパターンを識別して、様々なタイプにメッセージを分類することと、様々なメッセージのグループ分け及びスコアリングのためにトピックモデルを開発することができる。ビデオセッションは、カスタム・トピック・モデルを構築するために、処理され得る。
【0051】
例示的実施態様では、入出力インターフェース212は、ネットワーク202又は様々なタイプの装置204、205(たとえば、図1の装置105a~105n)と通信可能に接続された、1又は複数の通信インターフェースを含んでいる。入出力インターフェース212は、データ記憶装置203、様々なタイプの装置204、205などの様々なソースから、又は、ネットワーク202を介して、ビデオデータ206を受信することができる。さらに、入出力インターフェース212は、データ記憶装置203、様々なタイプの装置204、205などの様々なソースから、又は、ネットワーク202を介して、メッセージデータ207を受信することができる。例示的実施態様では、入出力インターフェース212は、ビデオデータ206及びメッセージデータ207のライブストリームを、ネットワーク202を介して受信することができる。
【0052】
別の実施態様では、入出力インターフェース212は、データ記憶装置203から記録されたビデオデータ206のストリーム、及び、メッセージデータ207を、ネットワーク202を介して受信することができる。別の実施態様では、入出力インターフェース212は、ビデオセッションのトランスクリプト(音声を文字に変換した転写物)を含むビデオデータ206、及び、1又は複数の装置204、205からのメッセージデータ207を受信することができる。すなわち、キュレーションエンジン210は、入出力インターフェース212を介して、ビデオデータ206及びメッセージデータ207を、異なるフォーマットの様々なソースから受信し、インターフェースモジュール215を介して、様々な端末装置又はクラウドサービスにインターフェースを提供することができる。本明細書に列挙された組合せは、説明的実施例であり、したがって、当業者によって理解され得る他の組合せで置き換えられる場合がある。
【0053】
たとえば、ビデオデータ206は、ライブ、又は記録されたビデオからの音声のトランスクリプトを含み得る。ビデオデータ206はまた、ビデオセグメントの間の、講演者の相互作用の焦点などの、視覚情報を抽出するために、分析され得る。メッセージデータ207は、テキスト又はビデオベースのフォームで、聴講者から提示されたメッセージを含んでいる。ビデオの形態で提示されたメッセージデータはまた、ビデオメッセージの音声フィードを文字に転写するために処理され得る。メッセージデータは、位置、人口統計などの、送信者に関する追加情報をも含み得る。ビデオデータ206及びメッセージデータ207は、リアルタイムでキュレーションエンジン210によって受信されるか、データ記憶装置203から検索され得る。
【0054】
キュレーションエンジン210は、ライブ・ストリーミング・ビデオ・セッション、及び、記録されたビデオセッションと相互作用して、キュレーションされたメッセージを出力することができる。メッセージ・サポート・システム(MSS)230は、入出力インターフェース212、インターフェースモジュール215、及びフィードバックモジュール240と相互作用する、トピックモジュール233、分類モジュール236、リンクモジュール237、及び追跡モジュール239を含むことができる。例示的実施態様では、メッセージ・サポート・システム230は、ビデオデータ206及びメッセージデータ207から、トピックパターンを学習し、前後関係特有のキーワードを識別し、また、講演者の注目を追跡するための分析プロセスを含んでいる。
【0055】
例示的実施態様によれば、MSS230は、メッセージのタイプを分類するために、メッセージを分析する。たとえば、MSS230は、メッセージを挨拶、質問、確認、感謝などに分類することができる。たとえば、質問の検出のための複数の方法が採用され得る。これら方法は、語彙パターン及び構文パターンの分析を利用して、言語の情報を扱うための分類モデルをトレーニングすることができる。トピックモジュール233が、受信されたデータ(たとえば、ビデオデータ206及びメッセージデータ207)を分析し、キュレーションエンジン210による使用のためのトピックモデルを作成する。分類モジュール236が、構文分析を使用して、メッセージからの前後関係の要素を判定する。例示的実施態様では、分類モジュール236は、情報がメッセージの分類のための基準として有用であるかどうかを判定するための1組の方針を含み得る。
【0056】
MSS230のトピックモジュール233及び分類モジュール236は、機械学習プロセスを通して、追加のパラメータに基づき、メッセージに重み係数を割り当てることを含み得るルールを開発する。例示的実施態様によれば、分類モジュール236は、メッセージが分類区分又はトピックと関連付けられていることを相互作用的に判定又は証明するために、データ(ビデオデータ206、追跡モジュール239からの注意度データ、フィードバックモジュール240からのフィードバック)を使用して、前後関係の要素を認識することができる。例示的実施態様では、語彙又は構文上の質問パターンが、特徴を検出し、分類モデルを構築するために使用される。機械学習プロセスは、図3図4を参照してさらに詳細に記載するように、トレーニングデータ、又は、動的に更新されたモデルに基づく、メッセージの経験的な評価を完全に自動化するために実装される。
【0057】
リンクモジュール237は、ビデオフィードと、音声フィードと、メッセージとの間の相関を識別して、各フォーマット間のリンクを生成する。リンクモジュール237は、図7から図9を参照してさらに詳細に記載するように、追跡モジュール239と相互作用して、メッセージを、ビデオデータ、又は、他のメッセージと関連付けることができる。
【0058】
追跡モジュール239は、講演者に関連付けられた活動を監視することができる。いくつかの実施態様では、追跡モジュール239は、キュレーションエンジン210に含まれており、装置105a~105nによってホストされ得、また、講演者の相互作用と関連付けられたデータ(たとえば、情報)をキュレーションエンジン210に知らせる場合がある。例示的実施態様では、追跡モジュール239は、メッセージ列又は音声フィードからの情報に関連させるために、講演者の活動を追跡して、特定の時点におけるメッセージ又は視覚的な手がかりに対する注意度を識別する。追跡モジュール239は、ビデオフィードからのデータを監視して、講演者がメッセージに目を通し、又は選択しながらメッセージ列と相互作用していることを検出することができる。追跡モジュール239は、音声フィードから、講演者が質問を読み上げていることを検出する。たとえば、追跡モジュール239は、ユーザの活動レベルの変化を識別するために、講演者の注意度を、カメラを使用して、視線及び瞳の検出を通して追跡することができる。MSS230は、質問に対処する際に、音声の位置を、質問のキーワードと関連付けることができる。
【0059】
MSS230は、ビデオセッションからのメッセージを分析し、会話特有のキーワードを伴うトピックモデルを開発し、各メッセージを分類タイプ及びトピックでラベル付けする。例示的実施態様では、MSS230は、インターフェースモジュール215と相互作用して、ライブ・ストリーミング・ビデオ・セッションの間、メッセージ列を動的に管理する。MSS230は、インターフェースを介しての視覚表示のため、又は、メッセージを、記録されたビデオの特定の時間と関連付けるリンクとして、メッセージに関する概要情報をも提供する。
【0060】
フィードバックモジュール240は、MSS230の機能を改良及び向上させるために、MSS230に評価情報を返すように構成されている。たとえば、フィードバックモジュール240は、トピック又は質問を識別するために、視聴者の入力を集めることができる。フィードバックモジュール240は、ユーザから評価情報を集めて、割り当てられたトピック、分類区分、及びリンクを経時的に適合させることができる。
【0061】
図3は、例示的実施態様に係る、講演者インターフェースを生成するためのフロー図300である。プロセス300は、ハードウェア(回路、専用ロジックなど)、ソフトウェア(汎用コンピュータシステム又は専用の機械で動作するものなど)、又はそれら両方の組合せを含む場合がある処理ロジックによって実施される。方法300は、図1のキュレーションエンジン110によって実施され得る。方法300が、キュレーションエンジンによって実施されるものとして以下に記載されるが、方法300は、他の処理ロジックによって実施される場合もある。
【0062】
ブロック310では、講演者によって提供されるビデオセッションの間、処理装置が視聴者からのメッセージを受信する。分散型のソーシャル・チャット・アプリケーション内のトピックの検出のための技術が採用される。たとえば、MOOCビデオは、アイデアの交換、科目管理、講義資料に関するディスカッションのためのプラットフォームとして、ディスカッションフォーラムを含み得る。しかし、ユーザがトピックのスレッドを選択するディスカッションボードからの通常のメッセージとは異なり、ビデオの視聴者からのメッセージは、メッセージを分類するトピック又はサブトピックを容易に識別し得ない場合がある。メッセージは、指導者と生徒との間、及び/又は、生徒間の相互作用を示す場合がある。
【0063】
ブロック320では、処理装置が、各メッセージを分析して、コンテンツのトピックとメッセージのタイプとを識別する。各メッセージを分析するために、処理装置は、メッセージ内の前後関係のキーワードを検出し、ビデオセッションに関するトピックのモデルを生成し、このトピックモデルからのトピックを、各メッセージのコンテンツに基づいて関連付ける。メッセージは、質問、挨拶、意見、確認、不明などのタイプに分類され得る。処理装置は、メッセージの各々に関するメッセージタイプを判定するために、キーとなるフレーズのパターン、及び構文の分析を使用する。
【0064】
例示的実施態様には、ドメインにおける依存関係のモデルに対する重み付けがされたルールを使用する、相関的なドメインにおける、集合的で、確率的な推論のための確率的ソフトロジック(Probabilistic Soft Logic)などの、統計的な関係学習の方法が含まれる。例示的実施態様では、ビデオストリームのためのメッセージのコンテンツを分類するために、コンピュータ言語学の方法が使用される。たとえば、ユーザ間で生じる会話をマッピングするために、トピックモデルが使用される。このトピックモデルは、トピックモデルの種とするために、講義要綱と視聴者のフィードバック(たとえば、クラウドソースされたモデレーション(crowd sourced moderation))からのトピック入力、及び、講演者のトランスクリプトからのキーワードの検出を採用することができる。確率的ソフトロジック(Probabilistic Soft Logic)を使用したトピックの割り当てにより、直接のモデリング及びトピックモデリングが開発され得る。
【0065】
ブロック330では、処理装置が、メッセージの1又は複数のトレンディング・トピックを検出する。メッセージのトレンディング・トピックは、反応の雲(reaction cloud)、メッセージのハイライト、メッセージのグループ化、又は位置の重ね合わせ(overlay)などの、トレンディング・トピックの視覚化の構築のために使用される。ブロック340では、処理装置が、複数のメッセージに関するメッセージ列、及びトレンディング・トピックの視覚化を伴う講演者インターフェースを生成する。ここでは、メッセージ列内のメッセージに、メッセージのタイプに基づいてラベルが付される。
【0066】
処理装置は、講演者の、聴講者によってメッセージ列に提示されたメッセージとの相互作用を追跡し、音声フィードを分析することができる。次いで、処理装置は、対応する相互作用又は一致するキーワードが検出されたかどうかに基づき、メッセージ列内のメッセージを調整する。講演者の追跡には、視線の追跡、動作の検出、音声コマンドなどを採用することができる。例示的実施態様では、処理装置は、ビデオセッションからの講演者の音声を追跡し、音声コンテンツに相関するトピックを伴うメッセージをハイライトする。一例では、処理装置は、メッセージ列からのメッセージの消失速度を制御するか、列内のメッセージをハイライトするか、メッセージが列に残るように促すか、列のメッセージをグループ化するか、又は列からメッセージを消すかするために、講演者インターフェースを適合させることができる。
【0067】
図4は、例示的実施態様に係る、ライブプレゼンテーションの間のメッセージのキュレーションのためのフロー図400である。ブロック450では、システムは、プレゼンテーションのためのビデオストリームを受信する。プレゼンテーションのビデオストリームは、ビデオセッションを開始し、視聴者からのチャットメッセージ及び反応を受信する講演者によって司会又は主催され得る。講演者が聴講者とビデオストリームを共有している(たとえば、送信している)時間の間、聴講者は、チャットメッセージ、支払い、ギフト、エモティコンなどを通して反応又は相互作用する。ビデオストリーム及びメッセージからのデータは、講演者がメッセージ列に完全に注意を向ける必要なしに、効率的に聴講者に応答するために、管理されたインターフェースにおいて講演者にキュレーションされたメッセージを提供するために分析される。
【0068】
ブロック460では、システムが講演者のインターフェースとの相互作用を追跡する。追跡システム(たとえば、図2の追跡モジュール239)は、インターフェースの各部分に対する講演者の注意度を監視する。講演者の注意度は、インターフェース上へのメッセージの制御又は提供を調整するために使用され得る。例示的実施態様では、注意度の追跡は、頭部の追跡、視線追跡などを介して監視され得る。講演者は、様々な入力を使用してインターフェースと相互作用して、プレゼンテーションの間に気が散ることを最小にする。たとえば、講演者は、手持ち式のリモコン、動作認識、眼球運動でのコマンドなどを使用して、メッセージ及び/又はトピックと相互作用(たとえば、選択、ハイライト、却下、アーカイブなど)することができる。
【0069】
例示的実施態様によれば、本システムは、音声認識とコンテンツの分析のために、講演者の音声チャネルのコンテンツを記録する。たとえば、講演者の音声チャネルは、記録の間、テキストのトランスクリプトに転写することができる。講演者の音声のトランスクリプトは、コンテンツの分析、トピックモデルの開発、及びトランスクリプトの一部に分類区分を割り当てるために、メッセージ・サポート・システムを介して処理され得る。転写された音声のスクリプトのうち、分類された部分は、ビデオ内の時間のアンカーに関連付けられ、それにより、プレゼンテーションが依然として進行中に、ビデオのトピックのトレンドを作成する。
【0070】
最近分析された講演者の音声に関連付けられたトピック及び/又は分類区分は、メッセージ・サポート・システムによって使用され得る。たとえば、現在のトピック及び/又は分類区分は、この現在のトピック及び/又は分類区分に関連する視聴者からのメッセージをハイライトするために、検出され得る。メッセージ・サポート・システムは、聴講者のメッセージストリームのパターン検出及び分類のために、講演者のトピック及び/又は分類区分のデータを、重み付けされた入力として使用することができる。別の例示的実施態様によれば、講演者の音声のトランスクリプトは、以下にさらに詳細に記載するように、様々なトピック及び/又は、質問に対する答えへのリンクとともにビデオの概要を生成するために使用される。
【0071】
ブロック410では、システムは、聴講者からのメッセージを受信する。ブロック415では、システムは、メッセージを分類する。ブロック420では、システムは、メッセージに分類区分でラベルを付す。例示的実施態様によれば、エンジンは、メッセージのタイプを分類するために、メッセージを分析する。たとえば、エンジンは、メッセージを挨拶、質問、確認、感謝などに分類することができる。たとえば、語彙パターン及び構文パターンの分析が、質問の検出のために採用され得る。これにより、言語の情報の処理のために、分類モデルがトレーニングされる。
【0072】
ブロック425では、システムは、メッセージ内のキーワードを検出する。一実施態様では、語彙又は構文上の質問パターンが、特徴を検出し、分類モデルを構築するために使用される。マイニング及び学習プロセスは、トレーニングデータ、又は、動的に更新されたモデルに基づき、メッセージの経験的な評価を提供する人間の介入を必要としないように、完全に自動化され得る。このプロセスは、メッセージから顕著なパターンのセットを抽出して、分類区分に関連付けられた特徴を検出する。たとえば、メッセージのパターンは、質問に関連付けられた特徴を識別するために、検出される(たとえば、だれが、何を、どこで、なぜ、どうやってのキーワード、文の構造、疑問符など)。
【0073】
システムは、語彙パターンを使用して、メッセージを分類する。たとえば、システムは、メッセージに対して語彙分析を実施して、文字列又はキーワードを、割り当てられた分類区分を伴うトークンに変換する。逐次的なパターン分析の例には、比較文の識別、誤文及び疑問文の検出が含まれ得る、構文パターンの例には、本明細書にさらに詳細に論じるように、構文の浅いパターン、マイニングされた連続的なトークン、パターンの長さ、マイニングされたトークンの頻度、トークンの距離、スピーチタグの部分、前後関係のスコア、信頼度スコアなどが含まれ得る。例示的実施態様には、逐次学習アルゴリズム(たとえば、条件付き確率場(Conditional Random Fields、CRF)、サポートベクターマシン(Support Vector Machines、SVM)など)による、パターンの抽出及び表示のための、可能性のあるサブツリー構造の分析、又は、構文解析ツリーの分割が含まれ得る。たとえば、本プロセスにより、正及び/又は負のパターンの分析に基づき、メッセージが分類される。
【0074】
テキストの断片の分類区分を検出するための他の方法は、一般的な自然言語処理に基づく場合がある。ストリーミングセッションに特有の追加的な分類区分は、たとえばトピックモデルを使用して、徐々に生成され得る。たとえば、潜在的ディリクレ配分を使用して、データの類似の部分を関連付けるために、観察されていないグループによって説明される観察のセットに関する統計モデルを生成することができる。帰納的学習(たとえば、ベイズ推定、ギブスサンプリング、及び期待値伝播(expectation propagation))を使用して、1組のトピックの分布、関連する単語の確率、各単語のトピック、各メッセージ又はセッションの特定のトピックの混合などを判定する。
【0075】
各メッセージ内の、前後関係に関連する用語(たとえば、重要であるか特有の単語)もまた検出され、パターン分析に含まれる。例示的実施態様によれば、特有の用語は、コーパスに関連しているか、ストリーミング・ビデオ・セッションのメッセージに増加的に関連するフラグが付される。たとえば、本プロセスには、用語頻度-逆文書頻度のベクトル空間モデリング、及び、NLPに基づく高度なキーフレーズの検出方法が含まれ得る。ビデオに関連付けられたメッセージのキーワードの関連性のランキングは、たとえば、各ベクトルと、オリジナルの問合せベクトルとの間の角度の逸脱を比較することによって計算され得る。ここで、問合せは、ビデオと同じ種類のベクトルとして表示される。
【0076】
ブロック430では、システムは、メッセージとの相互作用を管理する。ブロック435では、システムは、メッセージの視覚化を制御する。ブロック440では、システムは、共通の分類区分を共有する複数のメッセージに関するグループメッセージを形成することができる。たとえば、挨拶メッセージとして分類された複数のメッセージ(たとえば、やあ、こんにちは、おはようございますなど)は、分類区分の趣旨を伝える単一のメッセージにグループ化され得る。たとえば、システムは、ある時間間隔の間、メッセージ列から受信された挨拶のメッセージをフィルタリングし、フィルタリングされた複数のメッセージを単一のメッセージに組み合わせることができる。
【0077】
特定の分類区分からのメッセージのグループ化により、メッセージ列内のメッセージの量が低減され、講演者に対して注意を散漫させる要素が減少する。ミーティングが始まる際には、最初の数分の間に受信した挨拶すべてが、メッセージ列への表示が抑制され、一般化した挨拶及び補足情報(たとえば、ユーザ名、ユーザ位置、メッセージ提示のタイムスタンプ)を伴う、グループメッセージとして表示され得る。
【0078】
ブロック443では、システムは、メッセージの表示時間を調整することができる。例示的実施態様では、システムは、メッセージがメッセージ列からより速やかに消えるように、消失速度を増大させること、及び、他のメッセージがスクリーン上により長く残るように、別のメッセージに関する消失速度を低減させることができる。ブロック445では、システムは、メッセージ内のキーワードをハイライトすることができる。
【0079】
図5A図5Cは、例示的実施態様に係る、例示的講演者インターフェースを示す図である。図5Aは、例示的実施態様に係る、例示的講演者インターフェース500を示す図である。講演者インターフェース500は、メッセージ列510、ビデオ視聴者505、及び/又はトレンディング・トピックの視覚化575を含んでいる。講演者インターフェース500は、提示されたメッセージを動的に制御して、メッセージ列への表示を調整することができる。メッセージ列510は、メッセージのテキストの分析及び講演者の活動の追跡に応じて、列内にメッセージを適応的に表示する。例示的実施態様では、メッセージ列510は、図2から図4を参照して記載したキュレーションプロセスに応じて管理されるとともに視覚的に調整される、メッセージの直線状のリストとすることができる。
【0080】
各メッセージは、分析されるとともに、分類区分が割り当てられる。共通の分類区分は、講演者がメッセージの内容を読み、処理するのに時間を取られる前に、講演者にメッセージのタイプを速やかに知らせるために、分類区分ラベル(たとえば、アイコン、絵文字、色、シンボル、フォントなど)を使用して視覚化され得る。たとえば、ショッピングカートの分類区分アイコン530は、メッセージQ2に付加することができる。メッセージの分類区分は、ビデオセッションの間、メッセージの視覚化の調整、及び、メッセージ活動の追跡をするために使用され得る。たとえば、メッセージの分類区分は、メッセージをグループ化するか組み合わせ、その分類区分からのメッセージが表示される頻度又は時間を変化させ、ビデオセッションの間に問われる質問を追跡するなどのために使用される。
【0081】
トレンディング・トピックの視覚化575は、メッセージ内で論じられている、人気の分類又はトピックを講演者に伝えるために、分類区分ラベル(たとえば、アイコン、シンボル、エモティコンなど)を使用することができる。たとえば、トレンディング・トピックの視覚化575は、(たとえば量を示すために)分類区分アイコンのストリームを表示することができる。トレンディング・トピックの視覚化575により、聴講者の反応が講演者にリアルタイムで表示される。
【0082】
たとえば、講演者が、聴講者にわかりにくいことを言った場合、トレンディング・トピックの視覚化575が、それに応じて、質問の量(たとえば、質問のアイコンとしての「+」)が増大したか、殺到したことを(たとえば、すぐに)示す場合がある。トレンディング・トピックの視覚化575は、殺到しているか量が増えている場合、アイコン+をより支配的に表示するように操作して調整することができる。たとえば、メッセージ列510は、他のメッセージに対するメッセージの古さに基づき、515でメッセージをフェードアウトさせることができる。新しいメッセージが表示されるとき、メッセージの量が閾値を超えると、より古いメッセージが列からフェードアウトするか、列のトップから下がっていく。
【0083】
一例では、525におけるメッセージQ1が、一定時間後か、多数のメッセージが提供された後に、メッセージ列510から見えなくなる場合がある。講演者インターフェース500は、講演者を追跡し、インターフェースの制御を提供するための手段を含んでいる。たとえば、講演者は、手の動作か眼球運動によって質問を積極的に却下することができる。
【0084】
一例では、メッセージ列510は、分類に対する講演者の注意度に基づき、メッセージをハイライトするか、メッセージの強調度合いを下げることができる。たとえば、講演者が、要求として分類されたメッセージ(たとえば、ショッピングカートのアイコンでラベルが付されている)を動的に取り下げた場合、メッセージ列510及びトレンディング・トピックの視覚化575は、その分類区分のメッセージの強調度合いを下げることができる(たとえば、Q2、Q6、Q8など)。
【0085】
メッセージ列510は、メッセージ又はビデオデータの分析に基づき、メッセージをハイライトすることができる(たとえば、Q5 545)。たとえば、列内のメッセージQ5は、メッセージ内のキーワードがビデオセッションの音声フィード内のキーワードに一致することに応じて、ハイライトされ得る。音声ストリーム内のキーワード検出は、メッセージ列510からフィルタリングされたか除去されたメッセージを再び導入するためにも使用され得る。たとえば、講演者が、KW1を議論している場合、メッセージQ5がハイライトされ得、KW3は、KW1に直接関連付けられたものと識別され得、KW3を含むメッセージQ12が、メッセージQ5の次に表示されるように昇格され得る。このため、講演者の注意が、音声ストリームに関連したメッセージに向けられ、講演者がメッセージと相互作用することから、関連するメッセージが、講演者と聴講者との間の効率的な相互作用のために識別及び配置される。
【0086】
図5Bは、例示的実施態様に係る、講演者インターフェース500に関する例示的グループメッセージ511を示す図である。特定の分類区分からのメッセージのグループ化により、列内のメッセージの量を低減し、講演者に対して注意を散漫させる要素が減少する。インターフェースは、共通の分類区分を共有する複数のメッセージに関するグループメッセージを形成することができる。たとえば、複数の挨拶のメッセージ(たとえば、やあ、こんにちは、おはようございますなど)がある時間間隔の間に受信された場合、グループメッセージ511をメッセージ列510に表示することができる。メッセージ列510は、複数の挨拶のメッセージの表示を保留し、メッセージに関するキーワード又はフレーズ512を識別し、ユーザに関する補足情報を集め、グループメッセージ511を提供することができる。講演者には、速やかにレビューするために、情報の概要が提供され得る。たとえば、グループメッセージ511は、視聴者の位置を示し、挨拶のメッセージを提示した各位置における聴講者の規模を示す。講演者は、多くの聴講者と効率的に相互作用して、たとえば、関わっている聴講者に人気のセグメントを呼び出すことができる。
【0087】
図5Cは、例示的実施態様に係る、講演者インターフェース500に関する例示的メッセージトラッカ513を示す図である。講演者インターフェース500は、特定の位置から来る大量のメッセージを通信するために、メッセージトラッカ513をも含むことができる。メッセージトラッカ513は、ポップアップウィンドウ、他のアドオンなどとして、トレンディング・トピックの視覚化575の一部として表示することができる。例示的メッセージトラッカ513では、講演者インターフェース500は、聴講者に関する情報を要約して世界地図上に図でレイアウトする。講演者インターフェースには、聴講者の情報又はメッセージを要約するための様々な他の図による視覚化が含まれ得る。
【0088】
図6A及び図6Bは、例示的実施態様に係る、例示的講演者インターフェース600を示す図である。図6Aは、例示的実施態様に係る、例示的講演者インターフェース600を示す図である。例示的講演者インターフェース600では、メッセージ列610が、各メッセージの隣のバルーンとしての分類区分ラベルとともに表示されている。トレンディング・トピックの視覚化615には、メッセージのトレンディング・トピックを示すための、色が付されたハートのグループが含まれている。講演者インターフェース600のビデオ視聴者区画605が聴講者にストリーミングされているビデオフィードを講演者に示す。
【0089】
図6Bは、ストリーミングビデオと、その傍らにある聴講者の相互作用のためのメッセージインターフェースとを特徴とする、例示的ビデオ・コミュニケーション・プラットフォームを示している。視聴者の参加のための主な手段は、テキスト・チャット・インターフェースにコメント又は質問をタイプすることである。様々な時点において、ミーティングの進行役(たとえば、講演者)は、質問に気が付くか、気付いたことを知らせる場合がある。一般に、講演者は、最初に、参加者によってタイプされた質問を復唱するか読み取り、次いで、音声フィードを介して答えを続ける場合がある。チャットインターフェースを介して質問が提示された時間と、ビデオに応答が与えられた時間との間に、しばしば遅れが生じる。
【0090】
図7図9を参照して論じたように、ビデオの各セグメントをウェブベースのミーティングからの質問とリンクさせる、ミーティングの概要を提供することによって、記録されたプレゼンテーションでの視聴者の経験が向上する。ミーティングの概要は、記録され、また、ミーティングが終わった後にミーティングを見ている視聴者によって容易にレビューされるために、情報の関連する部分を提供するように、再び呼び出されるか検索され得る。
【0091】
図7は、例示的実施態様に係る、記録されたビデオセッションからの答えのキュレーションのためのフロー図700である。プロセス700は、ハードウェア(回路、専用ロジックなど)、ソフトウェア(汎用コンピュータシステム又は専用の機械で動作するなど)、又はそれら両方の組合せを含む場合がある処理ロジックによって実施される。方法700は、図1のキュレーションエンジン110によって実施され得る。プロセス700が、キュレーションエンジンによって実施されるものとして以下に記載されるが、方法700は、他の処理ロジックによって実施される場合もある。
【0092】
方法700は、質問に対処している可能性があるビデオ及び/又は音声のセグメントへの、質問の多様なリンクを通して、記録されたビデオの概要を作成することに関する。たとえば、方法700は、時間的に分散された複数の質問を、ビデオを介しての大規模プレゼンテーション又はミーティングから、記録されたビデオの質問に対処しているセグメントへのリンク(たとえば、開始時間又は位置)を伴って識別するとともに要約することができる。たとえば、視聴者がテキスト・チャット・インターフェースで質問する大規模プレゼンテーション(オンラインのクラス、セミナーなど)では、講演者は、チャットの列からの質問にすぐに対処する場合があるが、対処しない場合もある。このため、ミーティングの記録されたバージョンを見る人々が、質問及びその関連付けられた答えを見つけることは、困難であり、時間がかかる。
【0093】
例示的実施態様では、プロセス700は、チャット/テキストフォーマットで問われている質問を検出し、話者が音声ファイル内で同一または類似の単語を使用した時間を識別し、講演者が質問をレビューしていることを示し、また、後続の音声をテキストに変換する。プロセス700では、将来の視聴者のための所与のプレゼンテーションを伴う、容易にレビュー可能であるとともに誘導可能な、関連付けられた質問及び答えの概要が作成される。誘導可能な概要により、視聴者が、ビデオ内で論じられたトピックを拾い読みし、又は問合せをして、質問に関連するビデオのセグメントを特定することにより、時間を節約することができる。
【0094】
ブロック710では、処理装置は、記録されたビデオに関連付けられた質問を識別する。ここで、記録されたビデオはビデオデータを含んでいる。例示的実施態様では、記録されたビデオに関連付けられた質問が、ビデオデータのメッセージ列から抽出される。たとえば、記録されたビデオからのチャットヒストリは、質問のメッセージタイプを有するメッセージを示す構文に関して構文解析され得る。
【0095】
ブロック720では、処理装置は、ビデオデータを分析する。ビデオデータの分析には、ビデオデータの音声コンテンツ内のキーワードを検出することが含まれる。例示的実施態様では、ビデオデータの分析には、講演者の、メッセージ列との相互作用の追跡と、追跡に基づく信頼度スコアの調整とが含まれている。たとえば、ビデオコンテンツが、講演者が講演者インターフェースのチャット部分でレビューまたは相互作用をしていたことを示す場合、処理装置は、後続のビデオセグメントがチャット部分内の質問に対処している可能性があることを示す信頼度スコアを増加させることができる。例示的実施態様では、講演者のチャット部分(すなわち、メッセージ列)との相互作用の追跡には、視線の追跡、スクリーン上の活動の分析、動作の検出、又は音声同期が使用される。
【0096】
いくつかの実施態様では、ビデオデータの分析により、音声のトランスクリプトに対する補助情報が追加され得る。たとえば、処理装置が、トランスクリプトの中に代名詞を識別した場合、トランスクリプト内の前のトピック、及び/又は、メッセージログからの1又は複数のメッセージが、質問に関連するコンテンツの識別の確度を向上させるために、この代名詞に関連付けられ得る。
【0097】
ブロック730では、処理装置が、質問に対する1又は複数の答えのセグメントを判定する。例示的実施態様では、処理装置は、記録されたビデオ内の質問の時間を判定し、質問に続く、関連する単語を伴うセグメントを識別するために、質問の時間の後に生じたビデオデータを検索することができる。評価されている質問が、プレゼンテーションの視聴者によって生成されていることから(たとえば、オリジナルのプレゼンテーションの間に提示されたメッセージ)、質問の提示時間は、質問に対処するための、最初の検索ポイントとして使用され得る。
【0098】
1又は複数のセグメントのいずれが質問に対処しているかを判定するために、処理装置は、メッセージ列、ビデオコンテンツ、音声コンテンツ、視聴者のフィードバック、又は、ビデオ若しくは音声のセグメントが質問に関連することを示す外部の他のデータ内の、他のメッセージを使用して、前後関係の分析を実施することができる。例示的実施態様では、前後関係の分析に、候補となるセグメントの、質問の時間に対する新しさ(たとえば、時間の近さ)、候補となるセグメントの、講演者によるメッセージ列での検出された相互作用に対する新しさ、記録されたビデオの視聴者からのフィードバック、又は、候補となるセグメントの質問に対する視覚コンテンツの関連性を使用することができる。
【0099】
たとえば、ビデオコンテンツがプレゼンテーションのスライド(たとえば、PowerPointのスライド)の視覚情報を含むか、音声が配布資料のページ番号を示す場合、処理装置は、スライド又は配布資料からの情報を、講演者の音声のトランスクリプトと共に使用して、質問に対処するセグメントを示すことができる。ブロック740では、処理装置が、信頼度スコアを満足する1又は複数の答えのセグメントを選択する。たとえば、処理装置は、質問に関連付けられたビデオデータに基づいて質問に関する信頼度スコアを計算することができる。
【0100】
ブロック750では、処理装置が、質問に対する、選択された1又は複数の答えのセグメントに対するリンクを形成する。このリンクは、ビデオの各セグメントに関する開始時間を含んでいる。リンクの始動により、質問に関連付けられた記録内のポイントにおける、記録されたビデオが提供される。質問は、セグメントに対する2つ以上のリンクに関連付けられる場合があり、また、処理装置は、前後関係の分析の観点による質問に対する関連性に基づいて、候補となるセグメントの順序リストを生成することができる。たとえば、質問に対処していると思われる候補となる複数のセグメントが閾値の個数だけ含まれる場合がある。いくつかの例では、記録内のポイントは、2つ以上の質問に関連付けられる場合がある。
【0101】
ブロック760では、処理装置が、信頼度スコアの観点から順位付けされたリンクを伴う、質問に対する答えの概要を生成する。視聴者がリンクを始動すると、視聴者には、ビデオを最初から見直す必要なく、ビデオのセグメントが提供される。リンクは、テキストのリンク、組み込まれたビデオのプレイリストなどの形態とすることができる。
【0102】
一実施態様では、処理装置は、質問を受信することに応じたポイントにおける、記録されたビデオのプレイバックを提供するための相互作用インターフェースを提供し得る。一実施態様では、処理装置は、順位付けされたリンクの1つに関連付けられたポイントにおける、記録されたビデオに対する字幕として、質問のテキストを挿入することができる。一実施態様では、視聴者がリンクを介してセグメントにアクセスした後に、処理装置は、答えの概要に記録されたリンクの順位付けを調整するために、リンクが質問に対処したかの、フィードバックを集めることができる(たとえば、いいね(like)、承認(thumbs up)、評価(rating)、ユーザが生成したラベルなど)。
【0103】
図8は、例示的実施態様に係る、記録されたビデオセッションからの答えのキュレーションのためのフロー図である。本プロセスにより、質問からのキーワードが、トランスクリプトの一部分が関連すると示すとき、チャットメッセージとビデオのそのポイントとの間のリンクが生成される。候補となる答えのセグメントの順序リストは、質問に対する、推定された関連性に応じて配置され得る。ブロック805では、本システムにより、視覚情報、音声情報、及びメッセージ情報を分析するために、記録されたビデオのプレゼンテーションが処理される。
【0104】
ブロック815では、システムは、プレゼンテーションからの音声フィードのテキストトランスクリプトを生成することができる。トランスクリプトには、ミーティングの間に議論された情報が含まれ得る。テキストベースの情報の検索及び自然言語処理のための方法が、トランスクリプトの処理のために使用され得る。ブロック820では、ミーティングの間の議論のためのトピックモデルを開発するために、トランスクリプトが使用される。ビデオに関連付けられたメッセージのキーワードの関連性のランキングは、たとえば、各ベクトルと、オリジナルの問合せベクトルとの間の角度の逸脱を比較することによって計算され得る。ここで、問合せは、ビデオと同じ種類のベクトルとして表示される。
【0105】
ブロック825では、本システムは、メッセージを分類し、質問を識別し、トピックでメッセージにラベルを付すために、メッセージログを参照する。例示的実施態様によれば、メッセージは、構文及びキーワードの分析に基づいて分類される。本システムは、ミーティングのトピックに関連付けられたキーワードのライブラリを生成することができる。例示的実施態様では、講演者が質問のいくつか、又はすべてを読んで、答えの前に前後関係を提供する場合に、トピックが、話されたトランスクリプトの内に現れる時間と比較して、チャットインターフェース内に質問が提出された時間を特定するのに近似的な単語のシーケンスマッチング技術が採用される。代替的なキーワード(たとえば、質問をしているユーザの名前)もまた、音声のトランスクリプトにおける、メッセージに対する関連する応答を識別するために使用することができる。
【0106】
ブロック830では、本システムは、質問に関する、1又は複数の候補となるセグメントを識別し、ブロック835において、質問に関する候補となるセグメントの各々の関連性を判定し、また、ブロック840において、各セグメントに関する前後関係の分析の観点から、関連性の重み付けをすることができる。質問に関する1又は複数の候補となるセグメントを識別するために、システムは、キーワードの抽出及びキーワードのマッチングを使用して、質問と答えのペアを識別する。答えの検出は、質問又は関連するトピックに対処する、ビデオ又は音声の記録におけるセグメント又は始点の特定に関する。講演者が、最初に、参加者によってタイプされた質問を復唱するか読み取り、次いで、音声フィードを介して答えを続ける場合があることから、質問と答えのペアは、参加者からのメッセージのログと、講演者の音声のトランスクリプトとの比較によって判定することができる。
【0107】
本システムは、前後関係に基づき、関連するセグメントの検索を制限することができる。たとえば、質問に対処するセグメントの検索は、ユーザによって最初に質問が提示された時間の後のビデオの部分に制限することができる。一例では、ビデオデータ、音声データ、及びメッセージのログは、各フォーマットのタイムスタンプに基づき、同時又は順次行うものとすることができる。ビデオフィードのスピーチの自動的なトランスクリプトは、検索品質を向上させるために、ベクトル空間の検索で使用することができる。質問に関する候補となるセグメントの各々の関連性は、ベクトル空間の分析から計算することができる。
【0108】
ブロック840では、本システムは、各セグメントに関する前後関係の分析の観点から、関連性に重み付けすることができる。一実施態様では、前後関係の分析には、ビデオフィードにおける視覚情報からの、講演者の注意度の追跡を含むことができる。本システムは、ビデオにおいてリンクされた時間が所与の質問に正確に対応する確度を向上させるために、他の前後関係の手がかりを利用する。たとえば、講演者は、時間tにおいて、チャット内の質問を読み、次いで、時間t+xにおいて、その質問に応答することになると思われる。メッセージに一致するキーワードの音声検出の前の時間におけるメッセージを表示するインターフェースとの相互作用の視覚的な検出は、音声内のそのキーワードを伴うビデオの位置が、質問への対処に関連していることを示している。本システムは、ソフトウェアに基づく目の追跡技術と、マウス、ポインタ、動作、及びスクリーン検出とを採用して、リンクされる時間を、講演者がチャットインターフェースに参加していた時間にバイアスさせる。各メッセージ内の、前後関係に関連する用語(たとえば、重要であるか特有の単語)もまた、検出され、パターン分析に含まれる。例示的実施態様によれば、特有の用語は、コーパスに関連しているか、ストリーミング・ビデオ・セッションのメッセージに増加的に関連するフラグが付される。たとえば、本プロセスには、用語頻度-逆文書頻度のベクトル空間モデリング、及び、NLPに基づく高度なキーフレーズの検出方法が含まれ得る。ビデオに関連付けられたメッセージのキーワードの関連性のランキングは、たとえば、各ベクトルと、オリジナルの問合せベクトルとの間の角度の逸脱を比較することによって計算され得る。ここで、問合せは、ビデオと同じ種類のベクトルとして表示される。
【0109】
例示的実施態様では、ブロック810において、本システムがビデオフィードを分析して、記録されたストリーミングの間、講演者の相互作用を追跡する。ブロック845では、本システムは、候補となるセグメントに対応する講演者の相互作用が存在するかを判定することができる。対応する相互作用が視覚情報によって示されなかった場合、本システムは、信頼度の計算に基づいて、候補となるセグメントの順位付けに進むことができる。
【0110】
対応する相互作用が存在すると判定された場合、本システムは、ブロック840において、前後関係の分析に基づいて候補となるセグメントをより関連性のあるものとして重み付けすることができる。たとえば、視覚情報は、チャットインターフェースに表示される1又は複数のメッセージに対応する、記録内の特定の時間におけるチャットインターフェースとの、講演者の相互作用を示すことができる。質問に関する候補となるセグメントが、相互作用の時点における質問を含んでいたチャットインターフェースとの、検出された相互作用に対応する場合、本システムは、視覚情報が、質問を含むメッセージと講演者が相互作用したことを示すことから、そのセグメントをより関連性があるものと重み付けする。
【0111】
ブロック850では、本システムは、関連性の計算に基づき、候補となるセグメントを順位付けする。ブロック855では、本システムは、質問に関するビデオのセグメントを再生するためのリンクを形成する。リンクは、ミーティングの概要の一部として、様々なフォーマットで提供され得る。ミーティングの概要には、テキストベースの質問から、質問に対処するビデオのセグメントへのリンクを含めることができる。たとえば、ブロック860では、本システムは、ビデオのセグメントを再生するためのリンクを提供する。別の例では、ブロック865で、本システムは、そのセグメントにおけるビデオの字幕として、質問を挿入することができる。本システムは、リンクのためのセグメント(たとえば、時間t)までキューが出されたビデオを提供すること、別々の質問と答えのインターフェースを生成すること、又は、質問に対する答えに対応する時間tまでビデオのプレイバックを移動させるために、視聴者がメッセージのログを介して操作することを可能にすることもできる。
【0112】
ブロック870では、本システムは、視聴者に、セグメントが質問に答えているかを問い、システムは、ブロック850において、フィードバックを使用して、セグメントのランク、又は、セグメントに関する信頼度の計算を更新する。本システムは、視聴者からのフィードバックを集めて、繰返し、信頼度の計算を向上させるか、質問に関するリンクの順序リストを調整することができる。たとえば、MOOCセッションをリプレイしている視聴者は、提供されたセグメントが質問に対処することに関連するかを示す(たとえば、投票する、スケーリングする、順位付けする)場合がある。視聴者のフィードバックに基づいて、更新された順序リストを他の視聴者が受信し、当該順序リストは、セグメントのいくつか、又はすべての順番を変更することができると共に、視聴者のフィードバックに基づいて順序リストからセグメントを除去することができるようにしてもよい。
【0113】
例示的実施態様では、ブロック805、ブロック810、ブロック815、及びブロック820が、記録されたビデオのセッションの各々に関して実施され得る。ブロック825及びブロック830は、メッセージ列から検出された各質問に関して繰り返すことができる。ブロック835~ブロック860は、質問に関して、候補となるセグメントのグループを処理するために繰り返すことができる。例示的実施態様(図示せず)によれば、ブロック830~ブロック865は、ブロック870で受信された負のフィードバックの閾値に応じて、繰り返すことができる。
【0114】
図9A図9Cは、例示的実施態様に係る、キュレーションがされた答えにアクセスするための視聴者インターフェースの例示的描写を示す図である。図9Aは、質問に対処する、記録されたビデオからのセグメントを特定するための、視聴者のためのメッセージインターフェースを示している。一実施態様では、記録されたビデオに関連付けられた質問は、記録されたビデオのプレイバックの間に視聴者から受領され得、また、メッセージ・サポート・システムは、ビデオデータからのメッセージのログを分析して、1又は複数のメッセージが、オリジナルのプレゼンテーションの間に問われた同様の質問を含んでいるかを判定することができる。たとえば、ビデオをリプレイしている視聴者は、トピック(たとえば、ネットワーク)に関する質問を提示することができ、処理装置は、メッセージのログを検索して、前に識別された質問がネットワークに関連するかを判定することができる。上述のように、処理装置は、信頼度スコアを計算して関連性を判定し、視聴者のフィードバックを集め、さらなる検索又は改善を実施して、質問に対処するセグメントを特定することができる。
【0115】
図9Bは、ビデオの上に重ね合わせられる質問925を伴う例示的ビデオ・プレイバック・インターフェースを示している。キュレーションエンジンは、質問をビデオインターフェース内に、図のポップアップ、テキストの字幕、視覚的な重ね合わせなど、視覚化したものとして挿入することができる。たとえば、ビデオ・プレイバック・インターフェースは、プレイバックウィンドウ内、又はその外側に記述された字幕テキストを含み得る。別の例では、相互作用アイコンが、ビデオ内に挿入され、それにより、セグメントが開始した際に、視聴者が、相互作用して質問に対する答えの概要、答えの概要内の他のセグメントへのリンク、フィードバックオプションなどを表示することができるようになっている。
【0116】
一実施態様では、ビデオ・プレイバック・インターフェースは、質問に対処するために、関連性の順序リストに従って、一連のビデオセグメントを提供することができる。たとえば、順序リスト内の第1のセグメントは、再生を開始し、第1のセグメントが終わった場合、又は視聴者が次のセグメントへ移動するように示した場合、順序リストの次のセグメントの再生をスタートすることができる。各セグメントとの視聴者の相互作用は、質問に対処するセグメントの信頼度を確認するためのフィードバックとして集めることができる。たとえば、視聴者が順序リストの次のセグメントにスキップすることを選択する前のプレイバック時間の量は、リストの順番を調整するために、追跡されるとともに比較され得る。たとえば、視聴者が第1のセグメントを30秒、第2のセグメントを10秒、そして第3のセグメントを35秒見た場合、フィードバックは、第2のセグメントが第3のセグメントよりも関連性が低いことを示し得る。フィードバックは、リスト内の他のセグメントと比較して、あるセグメントがリプレイされた回数を追跡することもできる。あるセグメントを複数回リプレイすることにより、そのコンテンツの関連性が高いことが示され得る。フィードバックは、順序リストを再配置して、各セグメントをプレイリストの前又は後ろに移動するために使用され得る。複数の視聴者からのフィードバックは、合わせられて、リスト内のビデオセグメントの関連性又は関連していないことに関する推論を向上させることができる。
【0117】
ビデオ・プレイバック・インターフェースは、オリジナルの記録における順番でリストからのセグメントを見るための制御をも含み得る。たとえば、各セグメントは、コンテンツが前のセグメントから構築されている一方で、不連続である場合がある。ビデオ・プレイバック・インターフェースは、質問に対処するものとして示された記録の中のもっとも先に現れるセグメントを提供し、ミーティングの概要内の質問に関連するものとして示されたビデオ内の後の位置まで自動的に飛ばすことができる。
【0118】
図9Cは、ビデオセグメントへのリンクを伴って、トランスクリプト内に質問を挿入する、例示的なトランスクリプトのインターフェースを示している。たとえば、講演者が、メッセージ列からの質問に、この質問を繰り返すことなく対処する場合、トランスクリプトインターフェースは、925で挿入されたか、質問に対処するものとして判定されたポイント(たとえば、ビデオ内のある時間又は位置)において重ね合わせられた質問を含むことができる。挿入された質問には、音声のトランスクリプトにおけるポイントに対応する、ビデオセグメントを開始するためのリンクを含むことができる。したがって、視聴者は、音声のトランスクリプトインターフェースから関連するトピックに速やかに誘導され、又は当該トピックを速やかに発見し、トランスクリプト内のトピックである、対処された、参加者によって提示された質問をレビューし、ミーティングの間に表示される視覚及び音声コンテンツを消費するために、セグメントのビデオ再生に切り換えることができる。
【0119】
図10は、例示的実施態様における使用に適切な例示的コンピュータ装置を含む例示的サーバコンピュータ環境を示す図である。コンピュータ環境1000におけるコンピュータ装置1005は、1又は複数の処理ユニット、コア、又はプロセッサ1010、メモリ1015(たとえば、RAM、ROMなど)、内部記憶装置1020(たとえば、磁気記憶装置、光学記憶装置、固体記憶装置、及び/若しくは有機記憶装置)、並びに/又は入出力インターフェース1025を含むことができる。これらの内の任意のものは、情報通信のために通信機構又はバス1030上に結合するか、コンピュータ装置1005に組み込むことができる。
【0120】
コンピュータ装置1005は、通信するように入力/ユーザインターフェース1035及び出力装置/インターフェース1040に結合することができる。入力/ユーザインターフェース1035と出力装置/インターフェース1040とのいずれか一方又は両方は、有線又は無線インターフェースとすることができるか、取外し可能とすることができる。入力/ユーザインターフェース1035は、入力を提供するのに使用することができる任意の装置、構成要素、センサ、又は、物理若しくは仮想インターフェース(たとえば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング/カーソルコントロール、マイク、カメラ、点字、モーションセンサ、光学リーダなど)を含んでもよい。
【0121】
出力装置/インターフェース1040は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含んでもよい。いくつかの例示的実施態様では、入力/ユーザインターフェース1035及び出力装置/インターフェース1040は、コンピュータ装置1005に組み込むことができるか、物理的に結合することができる。他の例示的実施態様では、他のコンピュータ装置が、コンピュータ装置1005に関して、入力/ユーザインターフェース1035及び出力装置/インターフェース1040として機能するか、入力/ユーザインターフェース1035及び出力装置/インターフェース1040の機能を提供する場合がある。
【0122】
コンピュータ装置1005の例には、限定ではないが、高度に移動性の装置(たとえば、スマートフォン、自動車及び他の機械の装置、人間又は動物に運ばれる装置など)、移動装置(たとえば、タブレット、ノート、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど)、並びに、移動用には設計されていない装置(たとえば、デスクトップコンピュータ、他のコンピュータ、情報キオスク、1又は複数のプロセッサが内部に組み込まれ、かつ/又は結合されたテレビ、ラジオなど)が含まれ得る。
【0123】
コンピュータ装置1005は、同じ又は異なる構成の1又は複数のコンピュータ装置を含む、ネットワーク化された任意の数の構成要素、装置、及びシステムと通信するために、外部記憶装置1045及びネットワーク1050に(たとえば入出力インターフェース1025を介して)通信可能に結合することができる。コンピュータ装置1005又は任意の接続されたコンピュータ装置は、サーバ、クライアント、シンサーバ(thin server)、汎用機械、特定用途の機械、又はその他の装置として機能するか、サービスを提供するか、又は呼ばれる場合がある。
【0124】
入出力インターフェース1025は、音声を介した、及び/又はデータネットワークを介した無線通信を促進する無線通信構成要素(図示せず)を含む場合がある。無線通信構成要素には、1又は複数のアンテナを伴うアンテナシステム、無線システム、ベースバンドシステム、又はこれらの任意の組合せが含まれ得る。無線周波数(RF)信号は、無線システムの管理下において、アンテナシステムによって無線で送信及び受信され得る。
【0125】
入出力インターフェース1025は、限定ではないが、少なくとも、コンピュータ環境1000において接続された構成要素、装置、及びネットワークすべてに情報を通信し、かつ/又はこれらから情報を通信するための、任意の通信若しくは入出力プロトコル、又は規格(たとえば、イーサネット(登録商標)、802.11x、ユニバーサル・システム・バス、WiMax、モデム、セルラ・ネットワーク・プロトコルなど)を使用する有線及び/又は無線インターフェースを含み得る。ネットワーク1050は、任意のネットワーク又はネットワークの組合せ(たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、電話ネットワーク、セルラネットワーク、衛星ネットワークなど)とすることができる。
【0126】
コンピュータ装置1005は、一時的媒体及び非一時的媒体を含み、コンピュータで使用可能であるか、コンピュータで読取り可能な媒体を使用し、かつ/又は使用して通信することができる。一時的媒体には、伝送媒体(たとえば、金属ケーブル、光ファイバ)、信号、搬送波などが含まれる。非一時的媒体には、磁気媒体(たとえば、ディスク及びテープ)、光学媒体(たとえば、CD ROM、デジタル・ビデオ・ディスク、ブルーレイディスク)、固体媒体(たとえば、RAM、ROM、フラッシュメモリ、固体記憶装置)、並びに、他の不揮発性記憶装置又はメモリが含まれる。
【0127】
コンピュータ装置1005は、いくつかの例示的なコンピュータ環境において、技術、方法、アプリケーション、プロセス、又はコンピュータで実行可能な命令を実施するのに使用することができる。コンピュータで実行可能な命令は、一時的媒体から検索することができるか、非一時的媒体に記憶するか、検索することができる。実行可能な命令は、任意のプログラミング言語、スクリプト言語、及び機械言語(たとえば、C、C++、C#、Java(登録商標)、Visual Basic、Python、Perl、JavaScript(登録商標)など)の1又は複数を元にすることができる。
【0128】
プロセッサ(複数の場合もある)1010は、ネイティブであるか、又は仮想の環境で、任意のオペレーティングシステム(OS)(図示せず)の下で実行することができる。論理ユニット1055、アプリケーション・プログラミング・インターフェース(API)ユニット1060、入力ユニット1065、出力ユニット1070、マルチメディアモジュール1075、講演者モジュール1080、及び/又は答えモジュール1085を含む、1又は複数のアプリケーションを展開することができる。たとえば、入力ユニット1065、マルチメディアモジュール1075、講演者モジュール1080、及び/又は答えモジュール1085は、図2から図9に示す1又は複数のプロセスを実装する場合がある。記載のユニット及び要素は、設計、機能、構成、又は実施態様を変更することができ、提供された記載には限定されない。
【0129】
いくつかの例示的実施態様では、情報又は実施指示がAPIユニット1060によって受信されると、情報又は実施指示は、1又は複数の他のユニット(たとえば、論理ユニット1055、出力ユニット1070、入力ユニット1080、入力ユニット1065、マルチメディアモジュール1075、講演者モジュール1080、及び/又は答えモジュール1085(たとえば、キュレーションエンジン、メッセージ・サポート・システムなど)に通信される場合がある。
入力ユニット1065は、APIユニット1060を介して、ビデオ、ビデオデータ、音声フィード、メッセージなどを受信して、マルチメディアモジュール1075、講演者モジュール1080、及び/又は答えモジュール1085を介して、動的メッセージ列を、トレンディング・トピックの視覚化及び、記録されたビデオに関する答えの概要でキュレーションすることができる。APIユニット1060を使用して、メッセージ・サポート・システム1085は、情報を分析して、トレンディング・トピックの視覚化による動的メッセージ列を伴うライブ・ストリーミング・ビデオのための講演者インターフェースの生成、及び、質問を、その質問に対処している、1又は複数の関連するセグメントにリンクさせる、記録されたビデオからの答えの概要の生成を識別することができる。
【0130】
いくつかの例では、論理ユニット1055は、上述のいくつかの例示的実施態様において、各ユニット間で情報フローを制御し、APIユニット1060、入力ユニット1065、出力ユニット1070、入力ユニット1065、マルチメディアモジュール1075、講演者モジュール1080、及び/又は答えモジュール1085によって提供されるサービスを指示するように構成され得る。たとえば、1又は複数のプロセス又は実施態様のフローは、論理ユニット1055単独か、APIユニット1060との組合せによって制御される場合がある。
【0131】
図11は、例示的実施態様における使用に適切な例示的コンピュータ装置を含む例示的ネットワーク環境を示す図である。環境1100には、装置1105~1150が含まれており、各装置が、たとえばネットワーク1160を(たとえば、有線及び/又は無線接続により)介して少なくとも1つの他の装置に通信可能に接続されている。いくつかの装置は、1又は複数の記録装置1130及び1145に通信可能に接続され得る。
【0132】
1又は複数の装置1105~1150の例は、それぞれ、図10に関して記載されたコンピュータ装置1005であってもよい。装置1105~1150は、限定ではないが、上述のような関連するウェブカメラとディスプレイを有するコンピュータ1105(たとえば、ラップトップ・コンピュータ・装置)と、モバイル装置1110(たとえば、スマートフォン又はタブレット)、テレビ1115、車両1120に関連付けられた装置、サーバコンピュータ1125、コンピュータ装置1135~1140、記憶装置1130及び1145を含んでもよい。上述のように、ユーザのミーティング環境は変化する場合があり、オフィス環境に限定されない。
【0133】
いくつかの実施態様では、装置1105~1120、1150は、ビデオの視聴者又は講演者に関連付けられたユーザ装置と見なされる場合がある。装置1125~850は、サービス(たとえば、上述の、図1図2を参照したビデオ搬送サービス、及び/又は、ビデオデータ、メッセージ・データ・テキスト、テキストの部分、イメージ、イメージの部分、音声、音声セグメント、ビデオ、ビデオのセグメント、及び/又はそれらに関する情報などの記録データ)に関連付けられた装置である場合がある。
【0134】
詳細な説明のいくつかの部分は、コンピュータ内の演算のアルゴリズム及び象徴的な表示に関して与えられている。これらアルゴリズムの記載及び象徴的表示は、データ処理の当業者により、それらの技術革新の本質を他の当業者に伝えるために使用される手段である。アルゴリズムは、所望の最終状態又は結果に繋がる、規定の一連の演算である。例示的実施態様では、実施される演算は、実質的な結果を得るための実質的な量の物理的操作を必要としている。
【0135】
特に別様に述べられていない限り、記載から明確であるように、本記載を通して、「受信(receiving)」、「検出(detecting)」、「判定(determining)」、「識別(identifying)」、「分析(analyzing)」、「生成(generating)」などの用語を利用する議論は、コンピュータシステムのレジスタ及びメモリ内の物理的(電子的)量として表示されるデータを、コンピュータシステムのメモリ若しくはレジスタ、又は、他の情報記憶、伝送、若しくは表示装置内の物理的量として同様に表示される他のデータに操作及び変換する、コンピュータシステム又は他の情報処理装置の動作及び処理を含み得ることを理解されたい。
【0136】
例示的実施態様は、本明細書の演算を実施するための装置にも関する場合がある。この装置は、所望の目的のために特別に構成され得るか、又はこの装置は、選択的に起動されるか、1又は複数のコンピュータプログラムによって再構成される、1又は複数の汎用コンピュータを含み得る。そのようなコンピュータプログラムは、コンピュータ可読記録媒体又はコンピュータ可読信号媒体などの、コンピュータ可読媒体に記録され得る。
【0137】
コンピュータ可読記録媒体は、限定ではないが、光学ディスク、磁気ディスク、リード・オンリ・メモリ、ランダム・アクセス・メモリ、固体装置及びドライブなどの有形媒体、又は、電子情報を記録するのに適切である、その他のタイプの有形若しくは無形媒体を伴ってもよい。コンピュータ可読信号媒体は、搬送波などの媒体を含んでもよい。本明細書に提供されるアルゴリズム及びディスプレイは、固有に、特定のコンピュータ又は他の装置に関連していない。コンピュータプログラムは、所望の実施態様の演算を実行する命令を伴う、純粋なソフトウェアの実施態様を伴うことができる。
【0138】
様々な汎用システムが、本明細書の例に係るプログラム及びモジュールとともに使用され得るか、より特定の装置を構成して、所望の方法の演算を実施するのに好都合であることがわかる場合がある。さらに、例示的実施態様は、いずれの特定のプログラム言語を参照しても記載されていない。様々なプログラミング言語が、本明細書に記載の例示的実施態様の教示を実装するのに使用され得ることを理解されたい。プログラミング言語(複数の場合もある)の命令は、1又は複数の処理装置、たとえば、中央処理装置(CPU)、プロセッサ、又はコントローラによって実施され得る。
【0139】
当業者には既知であるように、上述の演算は、ハードウェア、ソフトウェア、又は、ソフトウェアとハードウェアとのいくつかの組合せによって実装され得る。例示的実施態様の様々な態様が、回路及び論理装置(ハードウェア)を使用して実装され得るが、他の態様は、プロセッサによって実施される場合、プロセッサに、本出願の実施態様を行うための方法を実行させる、機械読取り可能媒体に記録された命令(ソフトウェア)を使用して実装され得る。
【0140】
さらに、本出願のいくつかの例示的実施態様は、ハードウェアのみによって実施され得るが、他の例示的実施態様は、ソフトウェアのみによって実施され得る。さらに、記載の様々な機能は、単一のユニット内で実行され得るか、任意の数の方法で、複数の構成要素にわたって広げられ得る。ソフトウェアによって実施される場合、本方法は、コンピュータ可読媒体に記憶された命令に基づき、汎用コンピュータなどのプロセッサによって実行され得る。所望である場合、命令は、圧縮及び/又は暗号化されたフォーマットで媒体に記憶することができる。
【0141】
例示的実施態様は、従来技術に対する様々な差異及び利点を有する場合がある。たとえば、限定ではないが、従来技術に関して上述のように、ウェブページにJavaScript(登録商標)を備えるのとは対象的に、テキスト及びマウス(たとえば、ポインティング)の動作が、ビデオドキュメント内で検出されるとともに分析され得る。
【0142】
さらに、本出願の他の実施態様は、本出願の教示の詳細及び実行を考慮することから、当業者には明らかになるであろう。記載の例示的実施態様の様々な態様及び/又は構成要素は、単一で、又は任意の組合せで使用してもよい。詳細及び例示的実施態様は、例としてのみ考慮されることが意図されており、本出願の真の範囲及び精神は、添付の特許請求の範囲によって示されている。
図1
図2
図3
図4
図5A
図5B
図5C
図6A
図6B
図7
図8
図9A
図9B
図9C
図10
図11