IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ハイパーコネクト インコーポレイテッドの特許一覧

特開2024-83300映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体
<>
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図1
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図2
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図3
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図4
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図5
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図6
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図7
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図8
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図9
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図10
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図11
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図12
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図13
  • 特開-映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024083300
(43)【公開日】2024-06-20
(54)【発明の名称】映像生成装置、方法、システム及びコンピュータ読み取り可能な記録媒体
(51)【国際特許分類】
   G06F 16/732 20190101AFI20240613BHJP
   H04N 21/8549 20110101ALI20240613BHJP
【FI】
G06F16/732
H04N21/8549
【審査請求】未請求
【請求項の数】22
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023207452
(22)【出願日】2023-12-08
(31)【優先権主張番号】10-2022-0170503
(32)【優先日】2022-12-08
(33)【優先権主張国・地域又は機関】KR
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ブルートゥース
2.BLUETOOTH
3.YouTube
4.FACEBOOK
5.INSTAGRAM
6.JAVA
7.Tik Tok
(71)【出願人】
【識別番号】519130063
【氏名又は名称】ハイパーコネクト リミテッド ライアビリティ カンパニー
【氏名又は名称原語表記】Hyperconnect, LLC
【住所又は居所原語表記】20F, ASEM TOWER, 517, Yeongdong-daero, Gangnam-gu,06164 Seoul,Republic of Korea
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【弁理士】
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100141553
【弁理士】
【氏名又は名称】鈴木 信彦
(72)【発明者】
【氏名】ジュニョン リ
【テーマコード(参考)】
5B175
5C164
【Fターム(参考)】
5B175DA04
5B175GB05
5C164FA29
5C164GA06
5C164MA02S
5C164MC03P
(57)【要約】
【課題】本発明は、既存の映像から一部区間のイメージを容易に抽出してハイライトクリップ(clip)映像、アビュージング(abusing)申告用映像などの相対的に短い映像を生成する装置、方法及びシステムを提供することを目的とする。
【解決手段】映像を生成する装置、方法、システム及びコンピュータ読み取り可能な記録媒体が開示される。一実施形態に係る映像生成方法は、複数のフレームイメージを含むターゲット映像を獲得する段階、複数のフレームイメージのうち推論対象となる少なくとも一部のフレームイメージに関する第1フレーム情報を獲得する段階、第1フレーム情報に対応するフレームイメージを推論モデルに入力して、ターゲット映像に対して映像を抽出するためのコンテンツイベント情報を獲得する段階、コンテンツイベント情報に基づいて、ターゲット映像のうち選択された区間に関する情報を獲得する段階、ターゲット映像及び選択された区間に関する情報に基づいて第1抽出映像を生成する段階を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
2つ以上の端末間に樹立されたセッションを通じて送出され、複数のフレームイメージを含むターゲット映像を獲得する段階と、
前記複数のフレームイメージのうち推論対象となる少なくとも一部のフレームイメージに関する第1フレーム情報を獲得する段階と、
前記第1フレーム情報に対応するフレームイメージを推論モデルに入力して、前記ターゲット映像に対して映像を抽出するためのコンテンツイベント情報を獲得する段階と、
前記コンテンツイベント情報に基づいて、前記ターゲット映像のうち選択された区間に関する情報を獲得する段階と、
前記ターゲット映像及び前記選択された区間に関する情報に基づいて第1抽出映像を生成する段階と、を含む、映像生成方法。
【請求項2】
前記ターゲット映像を獲得する段階は、
ストリーマー端末から中継サーバーを通じて1つ以上の視聴者端末に前記ターゲット映像が伝送されるなかで、前記中継サーバーから前記ターゲット映像を獲得することを特徴とする、請求項1に記載の映像生成方法。
【請求項3】
前記第1フレーム情報を獲得する段階は、
前記推論対象となるフレームイメージ、前記ターゲット映像が送出されたセッションのセッション識別情報、及び前記推論対象となるフレームイメージに対応するタイムスタンプを第1イベントキューに伝送する段階と、
前記第1イベントキューに保存されたフレームイメージ、セッション識別情報、及びタイムスタンプを第1フレーム情報として獲得する段階と、を含む、請求項1に記載の映像生成方法。
【請求項4】
前記第1イベントキューに伝送する段階は、
前記複数のフレームイメージのうちアイ-フレーム(I-frame)に該当しつつ、一定の確率で前記推論対象として選別されたフレームイメージ、前記セッション識別情報、及び前記選別されたフレームイメージに対応するタイムスタンプを前記第1イベントキューに伝送することを特徴とする、請求項3に記載の映像生成方法。
【請求項5】
前記第1フレーム情報に対応するフレームイメージは、
前記ターゲット映像が送出されたセッションのセッション識別情報に基づいてグループ化されたアイ-フレームのイメージを含む、請求項1に記載の映像生成方法。
【請求項6】
前記コンテンツイベント情報を獲得する段階は、
入力された前記フレームイメージに関する前記推論モデルの推論値に基づいて選択されたフレームイメージに対応するセッション識別情報及びタイムスタンプを第2イベントキューに伝送する段階と、
前記第2イベントキューに保存されたセッション識別情報及びタイムスタンプをコンテンツイベント情報として獲得する段階と、を含む、請求項1に記載の映像生成方法。
【請求項7】
前記第1抽出映像を生成する段階は、
前記コンテンツイベント情報に含まれたセッション識別情報に基づいてターゲット映像を特定する段階と、
前記特定されたターゲット映像に含まれたフレームイメージのうち、前記コンテンツイベント情報に含まれたタイムスタンプの時点を含む前記選択された区間に属するフレームイメージを用いて前記第1抽出映像を生成する段階と、を含む、請求項1に記載の映像生成方法。
【請求項8】
前記選択された区間に属するフレームイメージを用いて前記第1抽出映像を生成する段階は、
前記コンテンツイベント情報に含まれたタイムスタンプの時点を含むが、前記コンテンツイベント情報に含まれたイベント識別情報に基づいて設定された時区間に属するフレームイメージを用いて前記第1抽出映像を生成することを特徴とする、請求項7に記載の映像生成方法。
【請求項9】
前記第1抽出映像を生成する段階は、
前記コンテンツイベント情報に含まれた同一のセッション識別情報に対して、第1時点においてコンテンツイベントが発生した後の一定時間以内に第2時点においてコンテンツイベントが発生する場合、
前記第2時点においてコンテンツイベントが発生した後の一定時間以内に追加的なコンテンツイベントが発生しなければ、前記第1時点及び前記第2時点を含む特定時区間に属するフレームイメージを用いて前記第1抽出映像を生成し、
前記第2時点においてコンテンツイベントが発生した後の一定時間以内に第3時点においてコンテンツイベントが発生すると、前記第3時点を基準に後の一定時間以内に追加的なコンテンツイベントが発生するかを判断することを特徴とする、請求項1に記載の映像生成方法。
【請求項10】
前記ターゲット映像に含まれた複数のフレームイメージに保管期間を適用してストレージに保存する段階をさらに含み、
前記第1抽出映像は、
前記ストレージに保存されたフレームイメージのうち少なくとも一部を用いて生成されることを特徴とする、請求項1に記載の映像生成方法。
【請求項11】
前記ターゲット映像を1つ以上の視聴者端末又は前記ターゲット映像を送出予定であるストリーマー端末に伝送する段階をさらに含む、請求項1に記載の映像生成方法。
【請求項12】
生成された前記第1抽出映像を1つ以上の視聴者端末又は前記第1抽出映像を送出予定であるストリーマー端末に伝送する段階をさらに含む、請求項1に記載の映像生成方法。
【請求項13】
生成された前記第1抽出映像をコンテンツ伝送ネットワーク(CDN,Content Delivery Network)にアップロードする段階と、
前記アップロードされた第1抽出映像を参照するアドレス情報を受信する段階と、をさらに含む、請求項1に記載の映像生成方法。
【請求項14】
生成された前記第1抽出映像を1つ以上のコンテンツホスティングプラットフォーム又はソーシャルネットワークプラットフォームに事前連動されたアカウント名義でアップロードする段階をさらに含む、請求項1に記載の映像生成方法。
【請求項15】
前記推論モデルは、
複数の相違するターゲット映像それぞれに含まれたフレームイメージがバッチ(batch)形態として入力され、各フレームイメージが映像抽出の基準になり得るフレームイメージなのかを推論することを特徴とする、請求項1に記載の映像生成方法。
【請求項16】
前記推論モデルは、
1つのターゲット映像に含まれた1つ以上のフレームイメージが個別に入力され、各フレームイメージが映像抽出の基準になり得るフレームイメージなのかを推論することを特徴とする、請求項1に記載の映像生成方法。
【請求項17】
前記推論モデルは、
複数の相違するターゲット映像それぞれに含まれたフレームイメージがバッチ(batch)形態として入力され、各フレームイメージが映像抽出の基準になり得るフレームイメージなのかを1次推論する第1サブ推論モデルと、
前記1次推論の結果によって映像抽出の基準になり得るものとして判断されたフレームイメージがターゲット映像ごとに個別に入力され、各フレームイメージが映像抽出の基準になり得るフレームイメージなのかを2次推論する第2サブ推論モデルと、を含む、請求項1に記載の映像生成方法。
【請求項18】
前記推論モデルは、
コンテンツイベントに関して定義された1つ以上のテキストそれぞれを第1埋め込みベクトルに変換するテキスト変換モジュールと、
前記推論モデルに入力されるフレームイメージを第2埋め込みベクトルに変換するイメージ変換モジュールと、
前記第1埋め込みベクトルそれぞれと前記第2埋め込みベクトル間の相関度を算出する相関度算出モジュールと、
前記算出された相関度のうち前記テキスト別に設定された臨界相関度以上の相関度が存在する場合、前記臨界相関度以上の相関度に対応するフレームイメージのうち少なくとも一部を示す推論値を出力する出力モジュールと、を含む、請求項1に記載の映像生成方法。
【請求項19】
複数のフレームイメージを含むターゲット映像を獲得する段階と、
前記ターゲット映像が送出されるセッションに接続中の端末から録画要請を受信する段階と、
前記ターゲット映像が送出されるセッションのセッション識別情報及び前記録画要請時点のタイムスタンプに対応するフレームイメージを用いて第2抽出映像を生成する段階と、を含む、映像生成方法。
【請求項20】
請求項1ないし請求項19のうちいずれか1項に係る方法を遂行するためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。
【請求項21】
入出力インタフェース、命令語を保存するメモリ、及びプロセッサーを含み、
前記プロセッサーは、前記入出力インタフェース及び前記メモリと連結され、
複数のフレームイメージを含むターゲット映像を獲得し、
前記複数のフレームイメージのうち推論対象となる少なくとも一部のフレームイメージに関する第1フレーム情報を獲得し、
前記第1フレーム情報に対応するフレームイメージを推論モデルに入力して、前記ターゲット映像に対して映像を抽出するためのコンテンツイベント情報を獲得し、
前記コンテンツイベント情報に基づいて、前記ターゲット映像のうち選択された区間に関する情報を獲得し、
前記ターゲット映像及び前記選択された区間に関する情報に基づいて第1抽出映像を生成する、映像生成装置。
【請求項22】
2つ以上の端末間に樹立されたセッションを通じて送出され、複数のフレームイメージを含むターゲット映像をストリーマー端末から受信し、前記ターゲット映像を映像処理サーバー又はストレージに伝送する中継サーバーと、
前記中継サーバーから前記ターゲット映像を受信して、前記複数のフレームイメージのうち推論対象となる少なくとも一部のフレームイメージに関する第1フレーム情報を獲得し、前記第1フレーム情報に対応するフレームイメージを推論モデルに入力して、前記ターゲット映像に対して映像を抽出するためのコンテンツイベント情報を獲得し、前記コンテンツイベント情報に基づいて、前記ターゲット映像のうち選択された区間に関する情報を獲得し、前記ターゲット映像及び前記選択された区間に関する情報に基づいて第1抽出映像を生成する映像処理サーバーと、
前記中継サーバーから前記ターゲット映像を受信して、前記ターゲット映像に含まれた複数のフレームイメージに保管期間を適用して保存するストレージと、を含む、映像処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、長い映像から特定の区間の映像を抽出及び生成する装置、方法、システム及びコンピュータ読み取り可能な記録媒体に関する。
【背景技術】
【0002】
映像プラットフォーム市場は、ますます大きくなっている。例えば、既存では少数の専門ストリーマー(Streamer)だけが放送を進めたとすると、いまでは相当数の一般人もマーケティング、収益創出などを目的に放送を進めている。特に、技術の発展により、ストリーマーと視聴者間の通信遅延(delay)が大幅に改善されつつ、ほぼリアルタイムでの疎通が可能になることによって、一般人の参入がさらに活発になっている。
【0003】
映像プラットフォームは、リアルタイムでストリーマーが放送を進めると視聴者が接続して聴取するライブストリーミングプラットフォームと、録画された映像がアップロードされると視聴者が所望する映像を選択して聴取するノン-ライブストリーミングプラットフォームに分かれる。これに対してストリーマーは、一般的にライブストリーミングプラットフォームにおいて放送を進め、送出された放送を録画及び編集してノン-ライブストリーミングプラットフォームにアップロードする。編集された映像がノン-ライブストリーミングプラットフォームにおいて人気を得ると、該当ストリーマーの放送をリアルタイムで聴取しようとするユーザーがライブストリーミングプラットフォームに流入するという好循環が発生するためである。
【0004】
しかし、一般人の場合には、投資可能な資本と時間が不足する関係により、ライブストリーミングプラットフォームにおいて放送を録画することに必要な費用を完全に支払うことは困難である。また、たとえ放送を録画したとしても、映像編集に必要な時間が不足し、編集技術も初歩的な場合が多いため、ノン-ライブストリーミングプラットフォームにアップロードする映像を生成することは容易ではない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、前述した問題点を解決するために提案されたものであって、既存の映像から一部区間のイメージを容易に抽出してハイライトクリップ(clip)映像、アビュージング(abusing)申告用映像などの相対的に短い映像を生成する装置及び方法を提供することを目的とする。
【0006】
本開示によって達成しようとする技術的課題は、前記のような技術的課題に限定されず、以下の実施形態からさらに他の技術的課題が類推され得る。
【課題を解決するための手段】
【0007】
開示される一実施形態に係る映像生成方法は、2つ以上の端末間に樹立されたセッションを通じて送出され、複数のフレームイメージを含むターゲット映像を獲得する段階、前記複数のフレームイメージのうち推論対象となる少なくとも一部のフレームイメージに関する第1フレーム情報を確認する段階、前記第1フレーム情報に対応するフレームイメージを推論モデルに入力して、前記ターゲット映像に対して映像を抽出するためのコンテンツイベント情報を獲得する段階、前記コンテンツイベント情報に基づいて、前記ターゲット映像のうち選択された区間に関する情報を獲得する段階、及び前記ターゲット映像及び前記選択された区間に関する情報に基づいて第1抽出映像を生成する段階を含む。
【0008】
前記ターゲット映像を獲得する段階は、ストリーマー端末から中継サーバーを通じて1つ以上の視聴者端末に前記ターゲット映像が伝送されるなかで、前記中継サーバーから前記ターゲット映像を獲得することを特徴とすることができる。
【0009】
前記第1フレーム情報を獲得する段階は、前記推論対象となるフレームイメージ、前記ターゲット映像が送出されたセッションのセッション識別情報、及び前記推論対象となるフレームイメージに対応するタイムスタンプを第1イベントキューに伝送する段階、及び前記第1イベントキューに保存されたフレームイメージ、セッション識別情報、及びタイムスタンプを第1フレーム情報として獲得する段階を含むことができる。
【0010】
前記第1イベントキューに伝送する段階は、前記複数のフレームイメージのうちアイ-フレーム(I-frame)に該当しつつ、一定の確率で前記推論対象として選別されたフレームイメージ、前記セッション識別情報、及び前記選別されたフレームイメージに対応するタイムスタンプを前記第1イベントキューに伝送することを特徴とすることができる。
【0011】
前記第1フレーム情報に対応するフレームイメージは、前記ターゲット映像が送出されたセッションのセッション識別情報に基づいてグループ化されたアイ-フレームのイメージを含むことができる。
【0012】
前記コンテンツイベント情報を獲得する段階は、入力された前記フレームイメージに関する前記推論モデルの推論値に基づいて選択されたフレームイメージに対応するセッション識別情報及びタイムスタンプを第2イベントキューに伝送する段階、及び前記第2イベントキューに保存されたセッション識別情報及びタイムスタンプをコンテンツイベント情報として獲得する段階を含むことができる。
【0013】
前記第1抽出映像を生成する段階は、前記コンテンツイベント情報に含まれたセッション識別情報に基づいてターゲット映像を特定する段階、及び前記特定されたターゲット映像に含まれたフレームイメージのうち、前記コンテンツイベント情報に含まれたタイムスタンプの時点を含む特定時区間に属するフレームイメージを用いて前記第1抽出映像を生成する段階を含むことができる。
【0014】
前記特定時区間に属するフレームイメージを用いて前記第1抽出映像を生成する段階は、前記コンテンツイベント情報に含まれたタイムスタンプの時点を含むが、前記コンテンツイベント情報に含まれたイベント識別情報に基づいて設定された時区間に属するフレームイメージを用いて前記第1抽出映像を生成することを特徴とすることができる。
【0015】
前記第1抽出映像を生成する段階は、前記コンテンツイベント情報に含まれた同一のセッション識別情報に対して、第1時点においてコンテンツイベントが発生した後の一定時間以内に第2時点においてコンテンツイベントが発生する場合、前記第2時点においてコンテンツイベントが発生した後の一定時間以内に追加的なコンテンツイベントが発生しなければ、前記第1時点及び前記第2時点を含む特定時区間に属するフレームイメージを用いて前記第1抽出映像を生成し、前記第2時点においてコンテンツイベントが発生した後の一定時間以内に第3時点においてコンテンツイベントが発生すると、前記第3時点を基準に後の一定時間以内に追加的なコンテンツイベントが発生するかを判断することを特徴とすることができる。
【0016】
一方、前記映像生成方法は、前記ターゲット映像に含まれた複数のフレームイメージに保管期間を適用してストレージに保存する段階をさらに含むことができ、前記第1抽出映像は、前記ストレージに保存されたフレームイメージのうち少なくとも一部を用いて生成され得る。
【0017】
また、前記映像生成方法は、前記ターゲット映像を1つ以上の視聴者端末又は前記ターゲット映像を送出予定であるストリーマー端末に伝送する段階をさらに含むことができる。
【0018】
また、前記映像生成方法は、生成された前記第1抽出映像を1つ以上の視聴者端末又は前記第1抽出映像を送出予定であるストリーマー端末に伝送する段階をさらに含むことができる。
【0019】
また、前記映像生成方法は、生成された前記第1抽出映像をコンテンツ伝送ネットワーク(CDN,Content Delivery Network)にアップロードする段階、及び前記アップロードされた第1抽出映像を参照するアドレス情報を受信する段階をさらに含んでもよい。
【0020】
また、前記映像生成方法は、生成された前記第1抽出映像を1つ以上のコンテンツホスティングプラットフォーム又はソーシャルネットワークプラットフォームに事前連動されたアカウント名義でアップロードする段階をさらに含んでもよい。
【0021】
一方、前記推論モデルは、複数の相違するターゲット映像それぞれに含まれたフレームイメージがバッチ(batch)形態として入力され、各フレームイメージが映像抽出の基準になり得るフレームイメージなのかを推論するモデルであり得る。
【0022】
また、前記推論モデルは、1つのターゲット映像に含まれた1つ以上のフレームイメージが個別に入力され、各フレームイメージが映像抽出の基準になり得るフレームイメージなのかを推論するモデルであってもよい。
【0023】
また、前記推論モデルは、複数の相違するターゲット映像それぞれに含まれたフレームイメージがバッチ(batch)形態として入力され、各フレームイメージが映像抽出の基準になり得るフレームイメージなのかを1次推論する第1サブ推論モデル、及び前記1次推論の結果によって映像抽出の基準になり得るものとして判断されたフレームイメージがターゲット映像ごとに個別に入力され、各フレームイメージが映像抽出の基準になり得るフレームイメージなのかを2次推論する第2サブ推論モデルを含んでもよい。
【0024】
また、前記推論モデルは、コンテンツイベントに関して定義された1つ以上のテキストそれぞれを第1埋め込みベクトルに変換するテキスト変換モジュール、前記推論モデルに入力されるフレームイメージを第2埋め込みベクトルに変換するイメージ変換モジュール、前記第1埋め込みベクトルそれぞれと前記第2埋め込みベクトル間の相関度を算出する相関度算出モジュール、及び前記算出された相関度のうち前記テキスト別に設定された臨界相関度以上の相関度が存在する場合、前記臨界相関度以上の相関度に対応するフレームイメージのうち少なくとも一部を示す推論値を出力する出力モジュールを含んでもよい。
【0025】
一方、開示される他の実施形態に係る映像生成方法は、複数のフレームイメージを含むターゲット映像を獲得する段階、前記ターゲット映像が送出されるセッションに接続中の端末から録画要請を受信する段階、及び前記ターゲット映像が送出されるセッションのセッション識別情報及び前記録画要請時点のタイムスタンプに対応するフレームイメージを用いて第2抽出映像を生成する段階を含むことができる。
【0026】
開示される一実施形態に係る映像生成装置は、入出力インタフェース、命令語を保存するメモリ、及びプロセッサーを含み、前記プロセッサーは、前記入出力インタフェース及び前記メモリと連結され、複数のフレームイメージを含むターゲット映像を獲得し、前記複数のフレームイメージのうち推論対象となる少なくとも一部のフレームイメージに関する第1フレーム情報を獲得し、前記第1フレーム情報に対応するフレームイメージを推論モデルに入力して、前記ターゲット映像に対して映像を抽出するためのコンテンツイベント情報を獲得し、前記コンテンツイベント情報に基づいて、前記ターゲット映像のうち選択された区間に関する情報を獲得し、前記ターゲット映像及び前記選択された区間に関する情報に基づいて第1抽出映像を生成する。
【0027】
一方、本開示に係る映像生成方法を遂行するためのプログラムが記録された、コンピュータ読み取り可能な記録媒体が提供され得る。
【0028】
一方、本開示に係る映像処理システムは、2つ以上の端末間に樹立されたセッションを通じて送出され、複数のフレームイメージを含むターゲット映像をストリーマー端末から受信し、前記ターゲット映像を映像処理サーバー又はストレージに伝送する中継サーバー、前記中継サーバーから前記ターゲット映像を受信して、前記複数のフレームイメージのうち推論対象となる少なくとも一部のフレームイメージに関する第1フレーム情報を獲得し、前記第1フレーム情報に対応するフレームイメージを推論モデルに入力して、前記ターゲット映像に対して映像を抽出するためのコンテンツイベント情報を獲得し、前記コンテンツイベント情報に基づいて、前記ターゲット映像のうち選択された区間に関する情報を獲得し、前記ターゲット映像及び前記選択された区間に関する情報に基づいて第1抽出映像を生成する映像処理サーバー、及び前記中継サーバーから前記ターゲット映像を受信して、前記ターゲット映像に含まれた複数のフレームイメージに保管期間を適用して保存するストレージを含むことができる。
【0029】
その他の実施形態の具体的な事項は、詳細な説明及び図面に含まれている。
【発明の効果】
【0030】
本開示によると、映像のフレームイメージを選別的に抽出して、より短い映像を生成することにより、すべてのフレームイメージを映像に変換することに比べて映像録画に要される費用を軽減させることができる。
【0031】
一形態として、推論モデルを通じて特定イベントにふさわしいフレームイメージが何かを推論して短い映像を生成することにより、イベントの種類によって映像録画を自動的に遂行することができる。
【0032】
他の形態として、映像が送出されるセッションに接続した端末から録画要請を受信して短い映像を生成することによって、ユーザーが所望する区間に対してのみ費用効率的に映像録画を遂行することができる。
【0033】
発明の効果は、以上で言及した効果に制限されず、言及されていないさらに他の効果は、請求の範囲の記載から当該技術分野の通常の技術者に明確に理解され得るであろう。
【図面の簡単な説明】
【0034】
図1】一実施形態に係る映像生成装置が動作する環境を示す概略的な例示図である。
図2】一実施形態に係る映像生成方法を説明するためのフローチャートである。
図3】一実施形態によって第1フレーム情報を獲得するプロセスを説明するためのフローチャートである。
図4】一実施形態によってコンテンツイベント情報を獲得するプロセスを説明するためのフローチャートである。
図5】いくつかの実施形態によって第1抽出映像を生成するプロセスを説明するためのフローチャートである。
図6】いくつかの実施形態によって第1抽出映像を生成するプロセスを説明するためのフローチャートである。
図7】追加的な実施形態に係る映像生成方法を説明するためのフローチャートである。
図8】追加的な実施形態に係る映像生成方法を説明するためのフローチャートである。
図9】追加的な実施形態に係る映像生成方法を説明するためのフローチャートである。
図10】追加的な実施形態に係る映像生成方法を説明するためのフローチャートである。
図11】他の実施形態に係る映像生成方法を説明するためのフローチャートである。
図12】一実施形態に係る映像生成プロセスを示した例示図である。
図13】他の一実施形態に係る推論モデルの入出力プロセスを示した例示図である。
図14】一実施形態に係る映像生成装置を説明するためのブロック図である。
【発明を実施するための形態】
【0035】
本発明の特定実施形態によって構成されたシステム及び方法は、長い映像から特定区間のビデオを抽出および生成することに使用され得る。
【0036】
以下、図面を参照して具体的な実施形態を説明することにする。以下の詳細な説明は、本明細書において記述された方法、装置、及び/又はシステムに関する包括的な理解を助けるために提供される。しかし、これは例示に過ぎず、開示される実施形態はこれに制限されない。
【0037】
実施形態を説明することにおいて、関連する公知技術に関する具体的な説明が開示される実施形態の要旨を不必要に曖昧にし得ると判断される場合には、その詳細な説明を省略することにする。そして、後述する用語は、開示される実施形態における機能を考慮して定義された用語であって、これは、ユーザー、運用者の意図又は慣例などによって変わり得る。そのため、その定義は、本明細書全般にわたる内容に基づいて判断されなければならないであろう。詳細な説明において使用される用語は、単に実施形態を記述するためのものであり、決して制限的であってはならない。明確に異なって使用されない限り、単数形態の表現は複数形態の意味を含む。本説明において、「含む」又は「具備」のような表現は、ある特性、数字、段階、動作、要素、これらの一部又は組み合わせを示すためのものであって、記述されたもの以外に1つ又はそれ以上の異なる特性、数字、段階、動作、要素、これらの一部又は組み合わせの存在又は可能性を排除するように解釈してはならない。
【0038】
実施形態において使用される用語は、本開示における機能を考慮しつつ、可能な限り現在広く使用される一般的な用語を選択したが、これは当分野に従事する技術者の意図又は判例、新たな技術の出現などによって変わり得る。また、特定の場合は、出願人が任意に選定した用語もあり、この場合は、該当する説明の部分において詳細にその意味を記載するであろう。したがって、本開示において使用される用語は、単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたる内容に基づいて定義されなければならない。
【0039】
明細書全体において、ある部分がある要素を「含む」とするとき、これは特に反対の記載がない限り、他の要素を除くものではなく、他の要素をさらに含み得ることを意味する。また、明細書に記載された「~部」、「~モジュール」などの用語は、少なくとも1つの機能や動作を処理する単位を意味し、これはハードウェア又はソフトウェアとして具現されるか、又はハードウェアとソフトウェアの組み合せによって具現され得、図示された例とは異なり具体的動作において明確に区分されないことがある。
【0040】
明細書全体において記載された「a、b、及びcのうち少なくとも1つ」の表現は、「a単独」、「b単独」、「c単独」、「a及びb」、「a及びc」、「b及びc」、又は「a、b、及びcすべて」を包括することができる。
【0041】
以下の説明において、信号又は情報の「伝送」、「通信」、「送信」、「受信」、その他、これに類似した意味の用語は、一要素から他の要素に信号又は情報が直接伝達されるものだけでなく、他の要素を経て伝達されるものも含む。
【0042】
特に、信号又は情報を一要素として「伝送」又は「送信」するということは、その信号又は情報の最終目的地を指示することであって、直接的な目的地を意味するものではない。これは、信号又は情報の「受信」においても同一である。また、本明細書において、2つ以上のデータ又は情報が「関連」されるということは、1つのデータ(又は情報)を獲得すれば、それに基づいて、他のデータ(又は情報)の少なくとも一部を獲得できることを意味する。
【0043】
また、第1、第2などの用語は、多様な要素を説明することに使用され得るが、前記要素は、前記用語によって限定してはならない。前記用語は、1つの要素を他の要素から区別する目的で使用され得る。
【0044】
例えば、本発明の権利範囲を外れず、第1要素は第2要素として命名され得、同様に第2要素も第1要素として命名され得る。
【0045】
実施形態を説明することにおいて、本発明が属する技術分野でよく知られており、本発明と直接的に関連のない技術内容に関しては説明を省略する。これは、不必要な説明を省略することにより、本発明の要旨を曖昧にせず、より明確に伝達するためである。
【0046】
同様の理由により、添付図面において一部の要素は、誇張又は省略されるか、概略的に図示された。また、各要素の大きさは、実際の大きさを全的に反映するものではない。各図面において、同一又は対応する要素には同一の参照番号を与えた。
【0047】
本発明の利点及び特徴、そして、それらを達成する方法は、添付される図面と共に詳細に後述されている実施形態を参照すれば明確になるであろう。しかし、本発明は、以下において開示される実施形態に限定されるものではなく、互いに異なる多様な形態として具現され得、単に本実施形態は、本発明の開示が完全なものとし、本発明が属する技術分野において通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであり、本発明は請求項の範疇によって定義されるのみである。明細書全体にわたった同一の参照符号は、同一の構成要素を指称する。
【0048】
処理フローチャート図面の各ブロックとフローチャート図面の組み合わせは、コンピュータプログラムインストラクションによって遂行され得ることが理解できるであろう。これらのコンピュータプログラムインストラクションは、汎用コンピュータ、特殊用コンピュータ、又はその他のプログラム可能なデータプロセッシング装備のプロセッサーに搭載され得るため、コンピュータ又はその他のプログラム可能なデータプロセッシング装備のプロセッサーを通じて遂行されるそのインストラクションが、フローチャートブロック(ら)において説明された機能を遂行する手段を生成することになる。これらのコンピュータプログラムインストラクションは、特定方式として機能を具現するために、コンピュータ又はその他のプログラム可能なデータプロセッシング装備を指向できるコンピュータ利用可能又はコンピュータ読み取り可能メモリに保存することも可能であるため、そのコンピュータ利用可能又はコンピュータ読み取り可能メモリに保存されたインストラクションは、フローチャートブロック(ら)において説明された機能を遂行するインストラクション手段を内包する製造品目を生産することも可能である。コンピュータプログラムインストラクションは、コンピュータ又はその他のプログラム可能なデータプロセッシング装備上に搭載されることも可能であるため、コンピュータ又はその他のプログラム可能なデータプロセッシング装備上において一連の動作段階が遂行されてコンピュータで実行されるプロセスを生成し、コンピュータ又はその他のプログラム可能なデータプロセッシング装備を遂行するインストラクションは、フローチャートブロック(ら)において説明された機能を実行するための段階を提供することも可能である。
【0049】
また、各ブロックは、特定された論理的機能(ら)を実行するための1つ以上の実行可能なインストラクションを含むモジュール、セグメント、又はコードの一部を示すことができる。また、いくつかの代替実行形態においては、ブロックにおいて言及された機能が順序を外れて発生することも可能であることに注目しなければならない。例えば、連続して図示されている2つのブロックは、事実上、実質的に同時に遂行されることも可能であり、又はそのブロックが時に該当する機能により逆順で遂行されることも可能である。
【0050】
以下においては、添付した図面を参考にして、本開示の実施形態について本開示の属する技術分野において通常の知識を有する者が容易に実施できるように詳細に説明する。しかし、本開示は、いくつかの相違する形態で具現され得、ここで説明する実施形態には限定されない。
【0051】
図1は、一実施形態に係る映像生成装置が動作する環境を示す概略的な例示図である。図1を参照すると、映像生成装置100は、ストリーマー端末200、視聴者端末300-1、300-2・・・300-N、コンテンツ伝送ネットワーク(CDN,Content Delivery Network)400、コンテンツホスティングプラットフォーム500、及びソーシャルネットワークプラットフォーム600とデータをやり取りしながら動作する。このとき、視聴者端末300-1、300-2・・・300-N、コンテンツ伝送ネットワーク(CDN,Content Delivery Network)400、コンテンツホスティングプラットフォーム500、及びソーシャルネットワークプラットフォーム600は、実施形態によって一部省略されてもよい。
【0052】
一実施形態によると、映像生成装置100は、外部(例えば、ストリーマー端末200、視聴者端末300-1、300-2・・・300-N、又は中継サーバー(relay server)など)から獲得した映像から推論モデルを通じて推論した一部区間の映像を抽出して、既存の映像に対して特定イベントが録画されたハイライト映像を生成するか、規制に反する行為が含まれた申告用映像を生成することができる。例えば、映像生成装置100は、推論モデルによってストリーマー(Streamer)が拍手をするイベントが録画されたとして推論された区間の映像を抽出してもよく、視聴者がストリーマーに対して悪口が混ざったチャットを伝送したとして推論された区間の映像を抽出してもよい。このため、映像生成装置100は、獲得した映像を保存するストレージ、映像抽出のための情報を臨時保存するイベントキュー、推論モデルとデータをやり取りするモデル制御モジュール、ストレージから一部区間のフレームイメージを用いて抽出映像を生成する映像処理モジュールを含むことができる。また、実施形態によって、映像生成装置100は、映像を保存するストレージやイメージに対する推論を遂行する推論モデルを追加で含んでもよい。
【0053】
一方、他の実施形態によると、映像生成装置100は外部から映像を獲得し、ストリーマー端末200や視聴者端末300-1、300-2・・・300-Nが録画要請した時点に対応する区間の映像を抽出してもよい。このため、映像生成装置100は、獲得した映像を保存するストレージ、ストレージから一部区間のフレームイメージを用いて抽出映像を生成する映像処理モジュールを含むことができる。また、実施形態によって、映像生成装置100は、映像を保存するストレージを追加で含んでもよい。
【0054】
以上の実施形態を通じて、ストリーマーや視聴者は、別途の録画要請がなくても、必要な区間が自動的に抽出された要約映像を獲得するか、必要な時点に録画を要請することだけで特定区間が抽出された要約映像を獲得することができる。即ち、専業ストリーマーだけでなく、新たに映像プラットフォームに参入した一般人も容易に要約映像を製作できるようになることで、コンテンツ伝送ネットワーク400や多様な類型の映像プラットフォーム(例えば、コンテンツホスティングプラットフォーム500又はソーシャルネットワークプラットフォーム600など)にストリーミング映像及び要約映像をアップロードしてマーケティング、収益創出などを図ることができる。
【0055】
図1に図示された各要素は、ネットワーク内において互いに通信することができる。ネットワークは、ローカルエリアネットワーク(Local Area Network;LAN)、広域通信網(Wide Area Network;WAN)、付加価値通信網(Value Added Network;VAN)、移動通信網(mobile radio communication network)、衛星通信網、及びこれらの相互組み合せを含み、図1に図示された各ネットワーク要素の主体が互いに円滑に通信できるようにする包括的な意味のデータ通信網であり、有線インターネット、無線インターネット、及びモバイル無線通信網を含むことができる。無線通信は、例えば、無線LAN(Wi-Fi)、ブルートゥース、ブルートゥース低エネルギー(Bluetooth low energy)、ジグビー、WFD(Wi-Fi Direct)、UWB(ultra wideband)、赤外線通信(IrDA,infrared Data Association)、NFC(Near Field Communication)などがあり得るが、これに限定されない。
【0056】
以上に関して、以下の図面を通じてより詳細に説明することにする。以下、図2ないし図11を参照して後述する方法は、映像生成装置100によって遂行され得るが、実施形態によっては映像生成装置100のほかに付加的な個体を追加で用いて遂行されてもよい。
【0057】
図2は、一実施形態に係る映像生成方法を説明するためのフローチャートである。図2の方法は、図1に開示された映像生成装置100を含むが、それに限定されないシステムによって遂行され得る。
【0058】
映像生成装置は、複数のフレームイメージを含むターゲット映像を獲得する(段階S210)。
【0059】
一実施形態によると、映像生成装置は、ストリーマー端末200又は中継サーバーからターゲット映像を受信することができる。一方、映像生成装置が以下の過程を通じて映像を抽出することに用いるターゲット映像は、コピーであってもよい。この場合、ターゲット映像の原本は、映像生成装置の保存空間に別途で保存されてもよく、ストリーマー端末200の保存空間に保存されてもよく、ターゲット映像のコピーが臨時保存される映像生成装置外部のストレージ又は映像生成装置に含まれたストレージに保存されてもよい。
【0060】
一実施形態によると、映像生成装置は、ストリーマー端末200から中継サーバーを通じて1つ以上の視聴者端末にターゲット映像が伝送されるなかで、中継サーバーからターゲット映像を獲得することができる。
【0061】
一実施形態によると、映像生成装置は、ターゲット映像のほかにも、ターゲット映像が送出されたセッションのセッション識別情報又はターゲット映像を放送したストリーマーの識別情報を追加で獲得してもよい。
【0062】
一実施形態によると、映像生成装置が獲得するターゲット映像は、ターゲット映像内の他のフレームイメージを参照しないアイ-フレームのイメージ(I-Frame,Intra Frame)及びアイ-フレームのイメージに基づいて差がある部分のデータを予測して保存したピー-フレームのイメージ(P-Frame,Predicted Frame)を含むことができる。アイ-フレームのイメージが有する特徴は次の通りである。(1)アイ-フレームのイメージを用いるだけでターゲット映像を復元することができ、(2)アイ-フレームのイメージに対する推論結果や予測結果を該当アイ-フレームのイメージと時間的に隣接した周辺フレームのイメージに拡張適用することができる。
【0063】
一実施形態によると、映像生成装置は、獲得したターゲット映像を映像生成装置外部のストレージ又は映像生成装置に含まれたストレージに保存することができる。
【0064】
映像生成装置は、複数のフレームイメージのうち推論対象となる少なくとも一部のフレームイメージに関する第1フレーム情報を確認する(段階S220)。
【0065】
一実施形態によると、映像生成装置によって確認される第1フレーム情報は、推論対象として選別されたフレームイメージ、ターゲット映像が送出されたセッションのセッション識別情報、及び選別されたフレームイメージに対応するタイムスタンプを含むことができる。
【0066】
より具体的には、図3に図示されたように、映像生成装置は、推論対象となるフレームイメージ、ターゲット映像が送出されたセッションのセッション識別情報、及び推論対象となるフレームイメージに対応するタイムスタンプを第1イベントキューに伝送することができ(段階S310)、第1イベントキューに保存されたフレームイメージ、セッション識別情報、及びタイムスタンプを第1フレーム情報として獲得することができる(段階S320)。例示的には、第1イベントキューは、アパッチカフカ(Apache Kafka)に基づくアーキテクチャを含むことができる。また、例示的には、第1イベントキューから第1フレーム情報を確認する機能は、アパッチフリンク(Apache Flink)に基づくアーキテクチャを通じて具現され得る。
【0067】
このとき、段階S310に関して例示的には、映像生成装置はターゲット映像に含まれたすべてのアイ-フレームのイメージを第1イベントキューに伝送してもよく、ターゲット映像に含まれたアイ-フレームのイメージを一定の確率で無作為に選別して第1イベントキューに伝送してもよく、ターゲット映像に含まれたアイ-フレームのイメージのうち特定順序のアイ-フレームのイメージを選別して第1イベントキューに伝送してもよい。即ち、映像生成装置がターゲット映像から第1イベントキューに伝送するフレームイメージは、ターゲット映像に含まれたすべてのアイ-フレームのイメージであってもよいが、アイ-フレームのイメージの伝送に要される費用や資源を考慮して選別されたその一部であってもよい。
【0068】
再び図2を参照すると、映像生成装置は、段階S220を通じて確認された第1フレームイメージ情報に対応するフレームイメージを推論モデルに入力して、ターゲット映像に対して映像を抽出するためのコンテンツイベント情報を獲得する(段階S230)。具体的には、映像生成装置は、第1フレーム情報に対応するフレームイメージを推論モデルに入力して、推論モデルの出力に基づいて映像抽出の基準となるコンテンツイベント情報を確認することができる。
【0069】
一実施形態によると、第1フレーム情報に対応するイメージセットは、ターゲット映像が送出されたセッションのセッション識別情報に基づいてグループ化されたアイ-フレームのイメージを含むことができる。具体的には、第1フレーム情報に対応するフレームイメージは、同一のセッション識別情報に該当するアイ-フレームのイメージがグループ化されたセットであり得る。このため、映像生成装置は、セッション識別情報が同一のアイ-フレームのイメージ同士をキャッシュ(Cache)に臨時保存し、セッション識別情報が同一のアイ-フレームのイメージが一定個数以上臨時保存されるか、または一定以上の時間、臨時保存された場合は、臨時保存されたフレームイメージを推論モデルに入力することができる。
【0070】
他の実施形態によると、第1フレーム情報に対応するフレームイメージは、ターゲット映像に含まれた複数のフレームイメージのうち、(1)アイ-フレームのイメージ及び(2)アイ-フレームのイメージには該当しないが、設定された時点の条件、時区間条件、順番条件、又は容量条件を満足するフレームイメージを含むことができる。例えば、フレームイメージは、アイ-フレームのイメージではないが、特定の時点に該当するか、特定の時区間に含まれるか、特定の順番に対応するか、一定容量以下のピー-フレームイメージやビー-フレームイメージ(B-Frame,Bidirectional Frame)を含んでもよい。
【0071】
一実施形態によると、推論モデルは、映像生成装置とは別途のサーバー(例えば、Triton推論サーバー)で具現され得るが、必ずしもこれに限定されず、実施形態によっては映像生成装置内のメモリで具現されてもよい。
【0072】
一方、一実施形態によると、推論モデルは、推論に要される時間とコンピューティング資源を考慮して取捨選択され得るものであって、複数のターゲット映像のフレームイメージが1度に入力されて推論を遂行するモデルであってもよく、1度に1つのターゲット映像のフレームイメージだけが入力されて推論を遂行するモデルであってもよい。前者の場合、推論モデルは、複数の相違するターゲット映像それぞれに含まれたフレームイメージがバッチ(batch)形態で入力され、各フレームイメージが映像抽出の基準になり得るフレームイメージなのかを推論するモデルであり得る。一方、後者の場合、推論モデルは、1つのターゲット映像に含まれた1つ以上のフレームイメージが個別に入力され、各フレームイメージが映像抽出の基準になり得るフレームイメージなのかを推論するモデルであり得る。結果的には、前者はそれぞれ異なる放送や異なるターゲット映像のフレームイメージが入力されて推論を遂行するので、推論に要される時間が長い(速度が遅い)短所があるが、費用面においては効率的であり、後者はターゲット映像別に推論を遂行するので、推論に要される費用が大きい(コンピューティング資源が多く消耗される)短所があるが、推論に要される時間が短いという長所がある。
【0073】
一方、一実施形態によると、推論モデルは、前記2つの類型のモデルが混合された、2度の推論を遂行するモデルであってもよい。即ち、推論モデルは、複数の相違するターゲット映像それぞれに含まれたフレームイメージがバッチ(batch)形態で入力され、各フレームイメージが映像抽出の基準になり得るフレームイメージなのかを1次推論する第1サブ推論モデル、及び1次推論の結果によって映像抽出の基準になり得るものとして判断されたフレームイメージがターゲット映像ごとに個別に入力され、各フレームイメージが映像抽出の基準になり得るフレームイメージなのかを2次推論する第2サブ推論モデルを含んでもよい。このような推論モデルの構造は、2度の推論を通じて推論の正確度を高めつつも、推論に要されるコンピューティング資源と時間を折衷するためである。
【0074】
一方、一実施形態によると、推論モデル(又はサブ推論モデル)は、映像のイベントを示すテキストと推論モデル(又はサブ推論モデル)に入力されたフレームイメージを比較して、2つの間の類似する程度によって入力されたフレームイメージに対応する種類のイベントを識別することができる。このため、推論モデル(又はサブ推論モデル)は、次のような細部要素を含むことができる。これに関して、以下の図13を参照して後述することにする。
【0075】
(1)コンテンツイベントに関して定義された1つ以上のテキストそれぞれを第1埋め込みベクトルに変換するテキスト変換モジュール
【0076】
(2)推論モデル(又はサブ推論モデル)に入力されるフレームイメージを第2埋め込みベクトルに変換するイメージ変換モジュール
【0077】
(3)第1埋め込みベクトルそれぞれと第2埋め込みベクトル間の相関度を算出する相関度算出モジュール
【0078】
(4)算出された相関度のうちテキスト別に設定された臨界相関度以上の相関度が存在する場合、臨界相関度以上の相関度に対応するフレームイメージのうち少なくとも一部を示す推論値を出力する出力モジュール-例えば、出力モジュールは、臨界相関度以上の相関度のうち最大相関度に対応するフレームイメージを示す推論値を出力してもよく、臨界相関度以上のすべての相関度に対応するフレームイメージそれぞれを示す推論値を出力してもよい。但し、出力モジュールが出力する推論値の形態はこれに限定されない。
【0079】
一方、一実施形態によると、推論モデル(又はサブ推論モデル)は、算出された相関度のうちテキスト別に設定された臨界相関度以上の相関度が存在しない場合、推論モデル(又はサブ推論モデル)に入力されたフレームイメージに関する推論を終了してもよい。
【0080】
一方、一実施形態によると、推論モデル(又はサブ推論モデル)は、算出された相関度のうちテキスト別に設定された臨界相関度以上の相関度が存在しない場合、設定された確率で推論モデルに入力されたフレームイメージに関する推論値を出力することができる。即ち、推論モデルは、入力されたフレームイメージと類似したイベントがないものとして判断される場合でも、一定の確率で該当フレームイメージに関する推論値を映像生成装置に伝送することができ、映像生成装置は、該当フレームイメージに対応するセッション識別情報及びタイムスタンプを第2イベントキューに伝送し、第2イベントキューに保存された該当セッション識別情報及びタイムスタンプを音声サンプル(negative sample)として収集することができる。このように収集された音声サンプルは、今後の推論モデルの正確度を高めるための学習に用いられ得るので、推論モデルが類似したイベントがないものとして判断したフレームイメージに関する推論値を一定の確率で映像生成装置に伝送することは、推論と同時にモデルの学習のためのデータを蓄えられることを意味する。
【0081】
一方、一実施形態によると、映像生成装置によって確認されるコンテンツイベント情報は、推論モデルの出力を考慮して選別されたフレームイメージに対応するセッション識別情報及びタイムスタンプを含むことができる。
【0082】
図4には、本発明のいくつかの実施形態によって段階S230を遂行する例示的なプロセスが図示される。より具体的には、図4に図示されたように、映像生成装置は、入力されたフレームイメージに関する推論モデルの推論値に基づいて選択されたフレームイメージに対応するセッション識別情報及びタイムスタンプを第2イベントキューに伝送することができる(段階S410)。以後、映像生成装置は、第2イベントキューに保存されたセッション識別情報及びタイムスタンプをコンテンツイベント情報として獲得することができる(段階S420)。例示的には、第2イベントキューは、アパッチカフカ(Apache Kafka)に基づいたアーキテクチャを含むことができる。
【0083】
再び図2を参照すると、映像生成装置は、段階S230を通じて確認されたコンテンツイベント情報に基づいて、ターゲット映像のうち選択された区間に関する情報を確認する(段階S240)。
【0084】
映像生成装置は、ターゲット映像及び段階S240を通じて選択された区間に関する情報に基づいて第1抽出映像を生成する(段階S250)。
【0085】
一実施形態によると、映像生成装置は、生成された第1抽出映像を1つ以上の視聴者端末又は第1抽出映像を送出予定であるストリーマー端末200に伝送してもよい。
【0086】
図5には、本発明のいくつかの実施形態によって段階S250を遂行する例示的なプロセスが図示される。一実施形態によると、映像生成装置は、図5に図示されたように、コンテンツイベント情報に含まれたセッション識別情報に基づいてターゲット映像を特定し(段階S510)、特定されたターゲット映像に含まれたフレームイメージのうち、コンテンツイベント情報に含まれたタイムスタンプの時点を含む特定時区間に属するフレームイメージを用いて第1抽出映像を生成することができる(段階S520)。
【0087】
段階S520に関する一例示として、映像生成装置は、推論モデルが、フレームイメージが入力されて推論したイベント(フレームイメージに対応するものとして推論したイベント)の種類に基づいて、第1抽出映像の生成に用いられるフレームイメージの時区間を決定することができる。具体的には、映像生成装置は、コンテンツイベント情報に含まれたタイムスタンプの時点を含むが、コンテンツイベント情報に含まれたイベント識別情報に基づいて設定された時区間に属するフレームイメージを用いて第1抽出映像を生成することができる。例えば、ストリーマーが飲食物を摂取するイベントが発生したものとして推論されたフレームイメージの場合、映像生成装置は、該当フレームイメージのタイムスタンプの時点を含むが、該当時点の前に30秒、後に30秒の時区間に属するフレームイメージを用いて「グルメ放送ハイライト」としての第1抽出映像を生成してもよく、ストリーマーが笑うイベントが発生したものとして推論されたフレームイメージの場合、映像生成装置は、該当フレームイメージのタイムスタンプの時点を含むが、該当時点の前に10秒、後に5秒の時区間に属するフレームイメージを用いて「笑える場面」としての第1抽出映像を生成してもよい。
【0088】
一方、一実施形態によると、映像生成装置は、映像が送出される1つのセッション内において複数のコンテンツイベントが発生する場合、コンテンツイベントが発生した間隔に基づいて、2つ以上のコンテンツイベントに対応する1つの抽出映像を生成することができる。例えば、2つのコンテンツイベントが一定間隔以内に相次いで発生する場合、映像生成装置は、時間的に近い2つの抽出映像を生成するよりは、2つのコンテンツイベントを包括できる1つの抽出映像を生成することができる。
【0089】
図6には、本発明のいくつかの実施形態によって段階S250を遂行する例示的なプロセスが図示される。映像生成装置は、コンテンツイベント情報に含まれた同一のセッション識別情報に対して、第1時点においてコンテンツイベントが発生した後の一定時間以内に第2時点においてコンテンツイベントが発生する場合、第2時点においてコンテンツイベントが発生した後の一定時間以内に追加的なコンテンツイベントが発生するかを確認することができる(段階S610及びS620)。
【0090】
続いて、映像生成装置は、第2時点においてコンテンツイベントが発生した後の一定時間以内に第3時点においてコンテンツイベントが発生する場合、第3時点を基準に後の一定時間以内に追加的なコンテンツイベントが発生するかを判断することができる(段階S630)。万一、第3時点後の一定時間が徒過するときまでに追加的なコンテンツイベントが発生しなければ、映像生成装置は、第1時点を開始タイムスタンプ(start_timestamp)として、第3時点を終了タイムスタンプ(end_timestamp)として第1抽出映像を生成することができ、第3時点後の一定時間以内の第4時点に追加的なコンテンツイベントが発生すれば、映像生成装置は第4時点を基準に再び段階S630を繰り返すことができる。
【0091】
一方、映像生成装置は、第2時点においてコンテンツイベントが発生した後の一定時間以内に追加的なコンテンツイベントが発生しない場合、第1時点及び第2時点を含む特定時区間に属するフレームイメージを用いて第1抽出映像を生成することができる(段階S640)。例えば、映像生成装置は、第1時点を開始タイムスタンプ(start_timestamp)として、第2時点を終了タイムスタンプ(end_timestamp)として、start_timestamp以前のM分からend_timestamp以降のN分に属するフレームイメージを含む第1抽出映像を生成することができる。
【0092】
図7ないし図10は、追加的な実施形態に係る映像生成方法を説明するためのフローチャートである。追加的または代替的には、前記映像生成方法は図2に関する方式で遂行されてもよい。具体的には、図7は獲得したターゲット映像を別途で保存する過程を含む実施形態に関するものであり、図8は獲得したターゲット映像を別途で伝送する過程を含む実施形態に関するものであり、図9及び10は生成された第1抽出映像を別途の空間にアップロードする過程を含む実施形態に関する。
【0093】
先ず、図7を参照すると、映像生成装置は、複数のフレームイメージを含むターゲット映像を獲得することができる(段階S710)。以後、映像生成装置は、ターゲット映像に含まれた複数のフレームイメージに保管期間を適用してストレージに保存することができる(段階S720)。これは、ターゲット映像に含まれるフレームイメージが占める容量が相当に大きいうえに、今後、第1抽出映像や第2抽出映像の生成に用いられるフレームイメージを除いては、ターゲット映像全体のフレームイメージが再び用いられる可能性が低いためである。このように、一定の保管期間を適用してストレージにフレームイメージを保存し、保管期間が徒過する場合には自動で削除されるように設定することによって、ストレージの効率的な使用が可能になる。
【0094】
一方、段階S710以後の映像生成装置は、複数のフレームイメージのうち推論対象となる少なくとも一部のフレームイメージに関する第1フレーム情報を獲得することができ(段階S730)、第1フレーム情報に対応するフレームイメージを推論モデルに入力して、ターゲット映像に対して映像を抽出するためのコンテンツイベント情報を獲得することができ(段階S740)、コンテンツイベント情報に基づいて、ターゲット映像のうち選択された区間に関する情報を獲得することができ(段階S750)、ターゲット映像及び選択された区間に関する情報に基づいて、ストレージに保存されたフレームイメージのうち少なくとも一部を用いて第1抽出映像を生成することができる(段階S760)。
【0095】
また、図8を参照すると、映像生成装置は、複数のフレームイメージを含むターゲット映像を獲得することができ(段階S810)、以後、映像生成装置は、獲得したターゲット映像を1つ以上の視聴者端末300-1、300-2・・・300-N又はターゲット映像を送出予定であるストリーマー端末200に伝送することができる(段階S820)。これは、抽出映像を生成する前に全体映像(ターゲット映像)を視聴者や映像の共有が行われるセッションのホストに中継するためであり、これによって、視聴者やホストは、今後生成される抽出映像と全体映像のうち視聴を所望する映像を選択することができる。以後の過程(S830ないしS860)に関する説明は、図7に図示されたS730ないしS760と同一又は類似するので、省略することにする。
【0096】
一方、図9を参照すると、映像生成装置は、複数のフレームイメージを含むターゲット映像を獲得することができ(段階S910)、複数のフレームイメージのうち推論対象となる少なくとも一部のフレームイメージに関する第1フレーム情報を獲得することができ(段階S920)、第1フレーム情報に対応するフレームイメージを推論モデルに入力して、ターゲット映像に対して映像を抽出するためのコンテンツイベント情報を獲得することができ(段階S930)、コンテンツイベント情報に基づいて、ターゲット映像のうち選択された区間に関する情報を獲得することができ(段階S940)、ターゲット映像及び選択された区間に関する情報に基づいて、ストレージに保存されたフレームイメージのうち少なくとも一部を用いて第1抽出映像を生成することができる(段階S950)。
【0097】
以後、映像生成装置は、生成された第1抽出映像をコンテンツ伝送ネットワーク400にアップロードすることができ(段階S960)、コンテンツ伝送ネットワーク400からアップロードされた第1抽出映像を参照するアドレス情報を受信することができる(段階S970)。
【0098】
具体的には、映像生成装置は、コンテンツ伝送ネットワーク400にアップロードされた第1抽出映像を参照するアドレス情報を受信して、(1)第1抽出映像に対応するセッション識別情報、(2)第1抽出映像の開始時点を示すタイムスタンプ、(3)第1抽出映像の終了時点を示すタイムスタンプ、及び(4)アドレス情報をターゲット映像の送出サービス(例えば、ライブストリーミングサービス)を提供するサーバーに伝送するか、別途に設けられたデータベースに保存することができる。また、前記(1)ないし(4)の情報を受信したサーバーは、自身と連動した別途のデータベースにこれを保存することも可能である。即ち、CDN400に抽出映像をアップロードすることによって、(相対的に大容量の)抽出映像をすべてストレージに保存する必要なく、(相対的に低容量の)前記(1)ないし(4)の情報だけをデータベースに保存するだけでも、CDN400を通じて自由に抽出映像にアクセスできるという利点が生じる。
【0099】
一方、図10を参照すると、映像生成装置は、複数のフレームイメージを含むターゲット映像を獲得することができ(段階S1010)、複数のフレームイメージのうち推論対象となる少なくとも一部のフレームイメージに関する第1フレーム情報を獲得することができ(段階S1020)、第1フレーム情報に対応するフレームイメージを推論モデルに入力して、ターゲット映像に対して映像を抽出するためのコンテンツイベント情報を獲得することができ(段階S1030)、コンテンツイベント情報に基づいて、ターゲット映像のうち選択された区間に関する情報を獲得することができ(段階S1040)、ターゲット映像及び選択された区間に関する情報に基づいて、ストレージに保存されたフレームイメージのうち少なくとも一部を用いて第1抽出映像を生成することができる(段階S1050)。
【0100】
以後、映像生成装置は、生成された第1抽出映像を1つ以上のコンテンツホスティングプラットフォーム500又はソーシャルネットワークプラットフォーム600に事前連動されたアカウント名義でアップロードすることができる(段階S960)。例えば、映像生成装置は、第1抽出映像をユーチューブ(YouTube)などのコンテンツホスティングプラットフォームや、フェイスブック(Facebook)、インスタグラム(Instagram)、ティックトック(TikTok)などのソーシャルネットワークプラットフォームにアップロードすることができる。これによって、単純にターゲット映像から抽出映像を自動的に生成することにとどまらず、生成した抽出映像を多様なプラットフォームに自動でアップロードしてストリーマーのマーケティング及び収益創出を容易にすることができる。
【0101】
一実施形態によると、第1抽出映像がアップロードされるアカウントは、ストリーマー端末200がターゲット映像送出サービスプラットフォームに事前に登録したアカウントであるか、ストリーマー端末200が映像生成装置に事前に登録したアカウントであり得る。
【0102】
図11は、他の実施形態に係る映像生成方法を説明するためのフローチャートである。具体的には、図11は、録画要請によって抽出映像を生成する方法に関するものであって、これを通じて、映像生成装置は、ターゲット映像送出サービス上においてアビュージング(abusing)行為に対して申告が受け付けられるか、又は大型後援(gifting)が行われるなどの特定イベント発生時に迅速に抽出映像を生成することができる。該当映像生成方法は、推論モデルを通じてイメージを推論する必要なく録画要請に対応して直ちに抽出映像を生成することができるため、図11に基づくいくつかの実施形態によって遂行される映像生成方法は、図2の映像生成方法に比べて録画要請という行為を必要とするので、自動性が劣る代わりに映像生成に要されるコンピューティング資源を節減できるという長所を有する。
【0103】
映像生成装置は、複数のフレームイメージを含むターゲット映像を獲得する(段階S1110)。
【0104】
映像生成装置は、ターゲット映像が送出されるセッションに接続中の端末から録画要請を受信する(段階S1120)。即ち、映像生成装置は、ターゲット映像が送出されるセッションに接続中のストリーマー端末200や視聴者端末300-1、300-2・・・300-Nから録画要請を受信することができる。録画要請は、ターゲット映像送出サービス内において提供されるインターフェースを通じて行われてもよく、ストリーマー端末200や視聴者端末300-1、300-2・・・300-Nに備えられたソフトウェア又はハードウェアを通じて発生した信号が映像生成装置に伝送されることによって行われてもよい。
【0105】
映像生成装置は、ターゲット映像が送出されるセッションのセッション識別情報及び録画要請時点のタイムスタンプに対応するフレームイメージを用いて第2抽出映像を生成する(段階S1130)。
【0106】
一実施形態によると、映像生成装置は、セッション識別情報に基づいてターゲット映像を特定し、特定されたターゲット映像に含まれたフレームイメージのうちタイムスタンプの時点を含む特定時区間に属するフレームイメージを含む第2抽出映像を生成することができる。
【0107】
前記図7及び8を参照して前述した「ターゲット映像を別途で伝送するか、保存する過程を含む実施形態」、又は図9及び10を参照して前述した「抽出映像を別途の空間にアップロードする過程を含む実施形態」は、図11の第2抽出映像を生成する映像生成方法にも同様に適用され得るので、これに関して重複する説明は省略することにする。
【0108】
以上のフローチャート(図2ないし図11)では、説明しようとする方法を複数個の段階に分けて記載したが、少なくとも一部の段階は順序を変えて遂行されるか、他の段階と組み合わせて共に遂行されるか、省略されるか、細部段階に分けられて遂行されるか、又は図示されない1つ以上の段階が付加されて遂行され得る。
【0109】
以下では、図12を通じて抽出映像が生成される例示的なプロセスをより直観的に説明し、そのうち推論モデルにおいて推論が行われる入出力プロセスを図13を通じて付加的に検討することにする。
【0110】
図12を参照して映像生成プロセスを説明すると次の通りである。
【0111】
(Step1-1)先ず、ストリーマーがストリーマー端末200を通じて放送を開始すると、ストリーマー端末200は、ストリーマーの識別情報をAPIサーバーに伝送し、それに対する応答としてセッション識別情報(例えば、放送が行われるルームの識別情報)を受信することができる。(Step1-2)また、ストリーマー端末200は、放送されるターゲット映像及びストリーマーの識別情報やセッション識別情報を中継サーバーに伝送することができる。このとき、ターゲット映像は、アイ-フレームのイメージとピー-フレームのイメージを含むと前提する。一方、ストリーマー端末200と中継サーバー間の伝送は、WebRTC(Web Real-Time Communication)技術を通じて行われ得るが、必ずしもこれに限定されない。
【0112】
(Step2-1)一方、中継サーバーは、受信したターゲット映像のコピーを視聴者端末300-1、300-2・・・300-Nに伝送することができ、(Step2-2)ターゲット映像に含まれたアイ-フレームのイメージ及びピー-フレームのイメージをストレージに保存することができる。このとき、ストレージに保存されるフレームイメージは、保管期間(TTL;Time to Live)が徒過すると削除されるように設定して保存され得る。(Step2-3)また、中継サーバーは、ターゲット映像に含まれた少なくとも一部のアイ-フレームのイメージをセッション識別情報及びタイムスタンプと共に第1イベントキューに伝送することができる。このとき、アイ-フレームのイメージの一部だけが第1イベントキューに伝送される可能性を考慮したのは、抽出映像の生成に要される費用(コンピューティング資源及び時間)を効率的に使用するためである。
【0113】
(Step3)以後、モデル制御モジュールは、第1イベントキューに保存されたデータ(アイ-フレームのイメージ、セッション識別情報、タイムスタンプ)を収集し、(Step4)セッション識別情報に基づいてグループ化されたアイ-フレームのイメージを推論モデルに伝送することができる。
【0114】
図13には、本発明の多様な実施形態によって遂行される推論モデルの入出力プロセスを描写したダイヤグラムが図示される。図13を参照すると、推論モデルは、映像のイベントに関して定義されたテキスト(例えば、「A woman is smiling.」、「A woman is winking.」など)それぞれをテキスト変換モジュールを通じて第1埋め込みベクトル(例えば、「A woman is smiling.」の埋め込みベクトル、「A woman is winking.」の埋め込みベクトルなど)に変換することができる。一方、推論モデルは、推論モデルに入力されるイメージをイメージ変換モジュールを通じて第2埋め込みベクトルに変換することができる。
【0115】
以後、推論モデルは、相関度算出モジュールを用いて第1埋め込みベクトルセット内の第1埋め込みベクトルそれぞれと第2埋め込みベクトル間の相関度を算出し、出力モジュールを通じて臨界相関度以上の相関度に対応するイメージのうち少なくとも一部を示す推論値を出力することができる。
【0116】
(Step5)再び図12を参照すると、モデル制御モジュールは、推論モデルから推論値を受信して、推論値が示すイメージに対応するセッション識別情報及びタイムスタンプを第2イベントキューに伝送することができる。(Step6)続いて、映像処理モジュールは、第2イベントキューに保存されたセッション識別情報及びタイムスタンプをコンテンツイベント情報として確認することができる。
【0117】
(Step7)以後、映像処理モジュールは、セッション識別情報に基づいてターゲット映像を特定し、タイムスタンプの時点を含む特定時区間に属するフレームイメージを用いて第1抽出映像を生成することができる。(Step8)また、映像処理モジュールは、第1抽出映像をCDN400、コンテンツホスティングプラットフォーム500、ソーシャルネットワークプラットフォーム600などにアップロードし、(Step9)CDN400からは、第1抽出映像を参照するアドレス情報を受信して、これをセッション識別情報、第1抽出映像の開始時点及び終了時点のタイムスタンプと共にAPIサーバーに伝送してもよい。(Step10)これに対して、APIサーバーは、伝送されたデータをデータベースに保存することができる。
【0118】
一方、図12を参照して前述したStep7までの過程のうち一部は、ストレージ、中継サーバー、及び(第1イベントキュー、モデル制御モジュール、推論モデル、第2イベントキュー、映像処理モジュールを含みつつ、これに限定されない)映像処理サーバーを含みつつ、それに限定されない映像処理システムを通じて遂行され得る。具体的には、映像処理システムは、(1)2つ以上の端末間に樹立されたセッションを通じて送出され、複数のフレームイメージを含むターゲット映像をストリーマー端末から受信し、ターゲット映像を映像処理サーバー又はストレージに伝送する中継サーバー、(2)中継サーバーから前記ターゲット映像を受信して、複数のフレームイメージのうち推論対象となる少なくとも一部のフレームイメージに関する第1フレーム情報を獲得し、第1フレーム情報に対応するフレームイメージを推論モデルに入力して、ターゲット映像に対して映像を抽出するためのコンテンツイベント情報を獲得し、コンテンツイベント情報に基づいて、ターゲット映像のうち選択された区間に関する情報を獲得し、ターゲット映像及び選択された区間に関する情報に基づいて第1抽出映像を生成する映像処理サーバー、及び(3)中継サーバーからターゲット映像を受信して、ターゲット映像に含まれた複数のフレームイメージに保管期間を適用して保存するストレージを含むことができ、これに限定されるものではない。
【0119】
一方、第2抽出映像を生成するプロセスは、第1抽出映像を生成するプロセスとは相違して、ストリーマー端末200や視聴者端末300-1、300-2・・・300-NがAPIサーバーに録画要請を伝送することができ、APIサーバーはターゲット映像が送出されるセッションのセッション識別情報及び録画要請時点のタイムスタンプを映像処理モジュールに伝送することができ、映像処理モジュールは伝送されたセッション識別情報及びタイムスタンプに対応するフレームイメージをストレージから持ち出して第2抽出映像を生成することができる。即ち、第2抽出映像を生成する映像生成装置100の場合、APIサーバーと連動するか、APIサーバー自体を含むことができる。
【0120】
図14は、一実施形態に係る映像生成装置を説明するためのブロック図である。
【0121】
図14に図示された映像生成装置100は、入出力インタフェース101、メモリ103、及びプロセッサー105を含むことができる。映像生成装置100は、入出力インターフェース101を通じて内部のモジュール間においてデータを交換するか、外部の装置と連結してデータを交換することができる。
【0122】
プロセッサー105は、図1ないし図13を通じて前述した少なくとも1つの方法を遂行することができる。メモリ103は、図1ないし図13を通じて前述した少なくとも1つの方法を遂行するための情報を保存することができ、揮発性メモリ又は不揮発性メモリであり得る。
【0123】
プロセッサー105は、プログラムを実行し、情報を提供するために映像生成装置100を制御することができる。プロセッサー105によって実行されるプログラムのコードは、メモリ103に保存され得る。
【0124】
映像生成装置100のプロセッサー105は、入出力インタフェース101及びメモリ103と連結され、複数のフレームイメージを含むターゲット映像を獲得し、複数のフレームイメージのうち推論対象となる少なくとも一部のフレームイメージに関する第1フレーム情報を確認し、第1フレーム情報に対応するフレームイメージを推論モデルに入力して、ターゲット映像に対して映像を抽出するためのコンテンツイベント情報を獲得し、コンテンツイベント情報に基づいて、ターゲット映像のうち選択された区間に関する情報を獲得し、ターゲット映像及び選択された区間に関する情報に基づいて第1抽出映像を生成することができる。
【0125】
図14に図示された映像生成装置100は、本実施形態に関する要素だけが図示されている。したがって、本実施形態に関する技術分野において通常の知識を有する者であれば、図14に図示された要素のほかに他の汎用的な要素がさらに含まれ得ることを理解することができる。
【0126】
より具体的には、前述した実施形態に係る装置は、プロセッサー、プログラムデータを保存して実行するメモリ、ディスクドライブのような永久保存部(permanent storage)、外部装置と通信する通信ポート、タッチパネル、キー(key)、ボタンなどのようなユーザーインターフェイス装置などを含み得る。ソフトウェアモジュール又はアルゴリズムとして具現される方法は、前記プロセッサー上において実行可能なコンピュータが読み取り可能なコード又はプログラム命令としてコンピュータが読み取り可能な記録媒体上に保存され得る。ここで、コンピュータが読み取り可能な記録媒体として、マグネティック保存媒体(例えば、ROM(read-only memory)、RAM(random-Access memory)、フロッピーディスク、ハードディスクなど)、及び光学的読み取り媒体(例えば、シーディーロム(CD-ROM)、ディーブイディー(DVD:Digital Versatile Disc))などがある。コンピュータが読み取り可能な記録媒体は、ネットワークに接続されたコンピュータシステムに分散されて、分散方式としてコンピュータが読み取り可能なコードが保存されて実行され得る。媒体は、コンピュータによって読み取り可能であり、メモリに保存され、プロセッサーにおいて実行され得る。
【0127】
本実施形態は、機能的なブロック要素及び多様な処理段階として示され得る。このような機能ブロックは、特定機能を実行する多様な個数のハードウェア及び/又はソフトウェアの要素として具現され得る。例えば、実施形態は、1つ以上のマイクロプロセッサーの制御又は他の制御装置によって多様な機能を実行することができる、メモリ、プロセッシング、ロジック(logic)、ルックアップテーブル(look-up table)などのような集積回路の構成を採用することができる。各要素がソフトウェアプログラミング又はソフトウェア要素として実行され得ることと同様に、本実施形態は、データ構造、プロセス、ルーチン、又は他のプログラミング要素の組み合わせとして具現される多様なアルゴリズムを含み、C、C++、ジャバ(Java)、アセンブラー(assembler)などのようなプログラミング又はスクリプト言語として具現され得る。機能的な側面は、1つ以上のプロセッサーにおいて実行されるアルゴリズムとして具現され得る。また、本実施形態は、電子的な環境設定、信号処理、メッセージ処理、及び/又はデータ処理などのために、従来の技術を採用することができる。「メカニズム」、「要素」、「手段」、「構成」のような用語は、広く使用され得、機械的かつ物理的な構成として限定されない。前記用語は、プロセッサーなどと連携してソフトウェアの一連の処理(routines)の意味を含むことができる。
【0128】
前述した実施形態は、一例示に過ぎず、後述する請求項の範囲内において他の実施形態が具現され得る。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
【外国語明細書】