(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-05-10
(45)【発行日】2024-05-20
(54)【発明の名称】シーン抽出システム、シーン抽出方法及びシーン抽出プログラム
(51)【国際特許分類】
H04N 5/93 20060101AFI20240513BHJP
H04N 5/91 20060101ALI20240513BHJP
【FI】
H04N5/93
H04N5/91
(21)【出願番号】P 2024048196
(22)【出願日】2024-03-25
【審査請求日】2024-03-25
【早期審査対象出願】
(73)【特許権者】
【識別番号】524092660
【氏名又は名称】株式会社STAR AI
(74)【代理人】
【識別番号】110004163
【氏名又は名称】弁理士法人みなとみらい特許事務所
(72)【発明者】
【氏名】吉田 学
(72)【発明者】
【氏名】西坂 空也
(72)【発明者】
【氏名】中岸 久佳
【審査官】鈴木 順三
(56)【参考文献】
【文献】特開2011-107936(JP,A)
【文献】特開2010-016618(JP,A)
【文献】特開2012-222450(JP,A)
【文献】特開2008-176538(JP,A)
【文献】国際公開第2016/098187(WO,A1)
【文献】特開2009-88828(JP,A)
【文献】米国特許出願公開第2013/0094756(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/76 - 5/956
(57)【特許請求の範囲】
【請求項1】
動画からシーンを抽出するシーン抽出システムであって、
前記シーン抽出システムは、記憶部、分割部、類似度算出部、嗜好シーン抽出部、類似シーン抽出部、を備え、
前記分割部は、前記動画をシーンごとに分割し、
前記記憶部は、前記分割された分割シーンにおける、ユーザごとの、映像に関する特徴に対する映像重視度、音に関する特徴に対する音重視度、発話に関する特徴に対する発話重視度、をユーザIDに紐づけて格納し、
前記類似度算出部は、前記分割された分割シーンの映像特徴量、音特徴量、発話特徴量、に基づいて、前記分割シーン同士の映像類似度、音類似度、発話類似度、を算出し、
前記嗜好シーン抽出部は、前記ユーザの視聴履歴に基づいて、複数の分割シーンから当該ユーザが嗜好する嗜好シーンを抽出し、
前記類似シーン抽出部は、前記嗜好シーン、前記映像類似度、前記音類似度、前記発話類似度、前記ユーザIDに紐づく重視度、に基づいて、前記分割シーンから類似シーンを抽出する、
シーン抽出システム。
【請求項2】
前記シーン抽出システムは、変化重視度作成部、を備え、
前記変化重視度作成部は、前記重視度及び所定条件に基づいて、当該重視度の全部又は一部を変化させた変化重視度を作成し、
前記類似シーン抽出部は、前記嗜好シーン、前記映像類似度、前記音類似度、発話類似度、前記変化重視度、に基づいて、前記分割シーンから変化重視度類似シーンを抽出する、
請求項1に記載のシーン抽出システム。
【請求項3】
前記シーン抽出システムは、重視度更新部、を備え、
前記重視度更新部は、前記変化重視度類似シーンに関するユーザの視聴履歴に基づいて、当該変化重視度類似シーンに関連する変化重視度を当該ユーザの重視度としてユーザIDに紐づけて更新する、
請求項2に記載のシーン抽出システム。
【請求項4】
前記シーン抽出システムは、提示部、を備え、
前記提示部は、前記類似シーンと比べて低い割合の変化重視度類似シーンを提示する、
請求項3に記載のシーン抽出システム。
【請求項5】
前記シーン抽出システムは、ダイジェスト動画作成部、を備え、
前記ダイジェスト動画作成部は、複数の前記類似シーンを用いて、ダイジェスト動画を作成する、
請求項1に記載のシーン抽出システム。
【請求項6】
前記シーン抽出システムは、フレーム抽出部、フレーム類似度算出部、を備え、
前記フレーム抽出部は、複数の前記類似シーンの最初と最後のフレームを抽出し、
前記フレーム類似度算出部は、前記抽出した最初のフレームと最後のフレームのフレーム類似度を算出し、
前記ダイジェスト動画作成部は、前記フレーム類似度に基づいて、前記ダイジェスト動画を作成する、
請求項5に記載のシーン抽出システム。
【請求項7】
前記シーン抽出システムは、嗜好スコア算出部、を備え、
前記嗜好スコア算出部は、前記嗜好シーン、前記映像類似度、前記音類似度、前記発話類似度、前記重視度、に基づいて、嗜好スコアを算出し、
前記ダイジェスト動画作成部は、前記類似シーンにおいて前記嗜好スコアが最も高いものを前記ダイジェスト動画の先頭とし、前記先頭の類似シーンを除く類似シーンの最初のフレームの中で、前記先頭の類似シーンの最後のフレームとのフレーム類似度が最大である類似シーンを前記先頭の類似シーンの次のシーンとして前記ダイジェスト動画を作成する、
請求項6に記載のシーン抽出システム。
【請求項8】
動画からシーンを抽出するシーン抽出システムが実行するシーン抽出方法であって、
前記シーン抽出システムは、記憶部、分割部、類似度算出部、嗜好シーン抽出部、類似シーン抽出部、を備え、
前記分割部が、前記動画をシーンごとに分割するステップと、
前記記憶部が、前記分割された分割シーンにおける、ユーザごとの、映像に関する特徴に対する映像重視度、音に関する特徴に対する音重視度、発話に関する特徴に対する発話重視度、をユーザIDに紐づけて格納するステップと、
前記類似度算出部が、前記分割された分割シーンの映像特徴量、音特徴量、発話特徴量、に基づいて、前記分割シーン同士の映像類似度、音類似度、発話類似度、を算出するステップと、
前記嗜好シーン抽出部が、前記ユーザの視聴履歴に基づいて、複数の分割シーンから当該ユーザが嗜好する嗜好シーンを抽出するステップと、
前記類似シーン抽出部が、前記嗜好シーン、前記映像類似度、前記音類似度、前記発話類似度、前記ユーザIDに紐づく重視度、に基づいて、前記分割シーンから類似シーンを抽出するステップと、を含む、
シーン抽出方法。
【請求項9】
動画からシーンを抽出するシーン抽出プログラムであって、
コンピュータを、記憶部、分割部、類似度算出部、嗜好シーン抽出部、類似シーン抽出部、として機能させ、
前記分割部は、前記動画をシーンごとに分割し、
前記記憶部は、前記分割された分割シーンにおける、ユーザごとの、映像に関する特徴に対する映像重視度、音に関する特徴に対する音重視度、発話に関する特徴に対する発話重視度、をユーザIDに紐づけて格納し、
前記類似度算出部は、前記分割された分割シーンの映像特徴量、音特徴量、発話特徴量、に基づいて、前記分割シーン同士の映像類似度、音類似度、発話類似度、を算出し、
前記嗜好シーン抽出部は、前記ユーザの視聴履歴に基づいて、複数の分割シーンから当該ユーザが嗜好する嗜好シーンを抽出し、
前記類似シーン抽出部は、前記嗜好シーン、前記映像類似度、前記音類似度、前記発話類似度、前記ユーザIDに紐づく重視度、に基づいて、前記分割シーンから類似シーンを抽出する、
シーン抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、シーン抽出システム、シーン抽出方法及びシーン抽出プログラムに関する。
【背景技術】
【0002】
従来、シーンにおける複数の特徴に基づいて、ユーザの嗜好に合うシーンの抽出を行う技術が存在する。
【0003】
例えば、特許文献1には、シーンにおける単語、画像、音等の特徴に基づいて、ユーザの嗜好に合うシーンの抽出を行う技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
何れの特徴を重視して動画を視聴しているかはユーザごとに異なる。よって、ユーザの嗜好に合うシーンを提供するためには、何れの特徴を重視してシーンを抽出するかをユーザごとに設定するのが好ましい。しかしながら特許文献1の技術では、複数の特徴に基づいてシーンを抽出できる一方、ユーザが重視する特徴をユーザごとに設定してシーンを抽出することはできない。
【0006】
本発明は、上述したような事情に鑑みてなされたものであって、ユーザの嗜好に合うシーンを抽出する新たな技術を提供することを解決すべき課題とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明は動画からシーンを抽出するシーン抽出システムであって、
前記シーン抽出システムは、記憶部、分割部、類似度算出部、嗜好シーン抽出部、類似シーン抽出部、を備え、
前記分割部は、前記動画をシーンごとに分割し、
前記記憶部は、前記分割された分割シーンにおける、ユーザごとの、映像に関する特徴に対する映像重視度、音に関する特徴に対する音重視度、発話に関する特徴に対する発話重視度、をユーザIDに紐づけて格納し、
前記類似度算出部は、前記分割された分割シーンの映像特徴量、音特徴量、発話特徴量、に基づいて、前記分割シーン同士の映像類似度、音類似度、発話類似度、を算出し、
前記嗜好シーン抽出部は、前記ユーザの視聴履歴に基づいて、複数の分割シーンから当該ユーザが嗜好する嗜好シーンを抽出し、
前記類似シーン抽出部は、前記嗜好シーン、前記映像類似度、前記音類似度、前記発話類似度、前記ユーザIDに紐づく重視度、に基づいて、前記分割シーンから類似シーンを抽出する。
【0008】
また、本発明は、動画からシーンを抽出するシーン抽出システムが実行するシーン抽出方法であって、
前記シーン抽出システムは、記憶部、分割部、類似度算出部、嗜好シーン抽出部、類似シーン抽出部、を備え、
前記分割部が、前記動画をシーンごとに分割するステップと、
前記記憶部が、前記分割された分割シーンにおける、ユーザごとの、映像に関する特徴に対する映像重視度、音に関する特徴に対する音重視度、発話に関する特徴に対する発話重視度、をユーザIDに紐づけて格納するステップと、
前記類似度算出部が、前記分割された分割シーンの映像特徴量、音特徴量、発話特徴量、に基づいて、前記分割シーン同士の映像類似度、音類似度、発話類似度、を算出するステップと、
前記嗜好シーン抽出部が、前記ユーザの視聴履歴に基づいて、複数の分割シーンから当該ユーザが嗜好する嗜好シーンを抽出するステップと、
前記類似シーン抽出部が、前記嗜好シーン、前記映像類似度、前記音類似度、前記発話類似度、前記ユーザIDに紐づく重視度、に基づいて、前記分割シーンから類似シーンを抽出するステップと、を含む。
【0009】
また、本発明は、動画からシーンを抽出するシーン抽出プログラムであって、
コンピュータを、記憶部、分割部、類似度算出部、嗜好シーン抽出部、類似シーン抽出部、として機能させ、
前記分割部は、前記動画をシーンごとに分割し、
前記記憶部は、前記分割された分割シーンにおける、ユーザごとの、映像に関する特徴に対する映像重視度、音に関する特徴に対する音重視度、発話に関する特徴に対する発話重視度、をユーザIDに紐づけて格納し、
前記類似度算出部は、前記分割された分割シーンの映像特徴量、音特徴量、発話特徴量、に基づいて、前記分割シーン同士の映像類似度、音類似度、発話類似度、を算出し、
前記嗜好シーン抽出部は、前記ユーザの視聴履歴に基づいて、複数の分割シーンから当該ユーザが嗜好する嗜好シーンを抽出し、
前記類似シーン抽出部は、前記嗜好シーン、前記映像類似度、前記音類似度、前記発話類似度、前記ユーザIDに紐づく重視度、に基づいて、前記分割シーンから類似シーンを抽出する。
【0010】
このような構成にすることで、ユーザごとの重視する特徴に基づいて、ユーザの嗜好する嗜好シーンを抽出することが可能となり、ユーザの嗜好に合う類似シーンを抽出することができる。
【0011】
本発明の好ましい形態では、前記シーン抽出システムは、変化重視度作成部、を備え、
前記変化重視度作成部は、前記重視度及び所定条件に基づいて、当該重視度の全部又は一部を変化させた変化重視度を作成し、
前記類似シーン抽出部は、前記嗜好シーン、前記映像類似度、前記音類似度、発話類似度、前記変化重視度、に基づいて、前記分割シーンから変化重視度類似シーンを抽出する。
【0012】
このような構成にすることで、ユーザIDに紐づく重視度を変化させた変化重視度に基づく類似シーンである変化重視度類似シーンを抽出することが可能となり、変化重視度及びユーザIDに紐づく重視度を用いてユーザの嗜好に合う重視度を探ることができる。
【0013】
本発明の好ましい形態では、前記シーン抽出システムは、重視度更新部、を備え、
前記重視度更新部は、前記変化重視度類似シーンに関するユーザの視聴履歴に基づいて、当該変化重視度類似シーンに関連する変化重視度を当該ユーザの重視度としてユーザIDに紐づけて更新する。
【0014】
このような構成にすることで、様々な重視度による類似シーンの視聴履歴を用いることが可能となり、ユーザの嗜好に合う重視度に更新することができる。
【0015】
本発明の好ましい形態では、前記シーン抽出システムは、提示部、を備え、
前記提示部は、前記類似シーンと比べて低い割合の変化重視度類似シーンを提示する。
【0016】
このような構成にすることで、類似シーンと少量の変化重視度類似シーンをユーザに対して同時に提示することが可能となり、それぞれの視聴履歴を比較してユーザの嗜好に合う重視度を探ることができる。
【0017】
本発明の好ましい形態では、前記シーン抽出システムは、ダイジェスト動画作成部、を備え、
前記ダイジェスト動画作成部は、複数の前記類似シーンを用いて、ダイジェスト動画を作成する。
【0018】
このような構成にすることで、複数の類似シーンを用いるダイジェスト動画を作成することが可能となり、ユーザに対して追加のコンテンツを提供することができる。
【0019】
本発明の好ましい形態では、前記シーン抽出システムは、フレーム抽出部、フレーム類似度算出部、を備え、
前記フレーム抽出部は、複数の前記類似シーンの最初と最後のフレームを抽出し、
前記フレーム類似度算出部は、前記抽出した最初のフレームと最後のフレームのフレーム類似度を算出し、
前記ダイジェスト動画作成部は、前記フレーム類似度に基づいて、前記ダイジェスト動画を作成する。
【0020】
このような構成にすることで、類似シーンの最初のフレームと最後のフレームの類似度に基づいてダイジェスト動画を作成することが可能となり、類似シーンごとの切れ目をユーザに感じさせないダイジェスト動画を作成することができる。
【0021】
本発明の好ましい形態では、前記シーン抽出システムは、嗜好スコア算出部、を備え、
前記嗜好スコア算出部は、前記嗜好シーン、前記映像類似度、前記音類似度、前記発話類似度、前記重視度、に基づいて、嗜好スコアを算出し、
前記ダイジェスト動画作成部は、前記類似シーンにおいて前記嗜好スコアが最も高いものを前記ダイジェスト動画の先頭とし、前記先頭の類似シーンを除く類似シーンの最初のフレームの中で、前記先頭の類似シーンの最後のフレームとのフレーム類似度が最大である類似シーンを前記先頭の類似シーンの次のシーンとして前記ダイジェスト動画を作成する。
【0022】
このような構成にすることで、ダイジェスト動画の先頭をユーザの嗜好に最も合う類似シーンとすることが可能となり、ユーザの興味を引くダイジェスト動画を作成することができる。
【発明の効果】
【0023】
本発明によれば、ユーザの嗜好に合うシーンを抽出する新たな技術を提供することができる。
【図面の簡単な説明】
【0024】
【
図1】本実施形態におけるシーン抽出システムの構成を示すブロック図。
【
図3】本実施形態における記憶部に格納されたデータ構成の一例。
【
図4】本実施形態における記憶部に格納されたデータ構成の一例。
【
図5】本実施形態におけるシーン抽出処理のフローチャート。
【
図6】本実施形態における重視度更新処理のフローチャート。
【
図7】本実施形態におけるダイジェスト動画作成処理のフローチャート。
【発明を実施するための形態】
【0025】
以下、図面を用いて、本発明のシーン抽出システムについて説明する。図面には好ましい実施形態が示されている。しかし、本発明は多くの異なる形態で実施されることが可能であり、本明細書に記載される実施形態に限定されない。
【0026】
例えば、本実施形態ではシーン抽出システムの構成、動作等について説明するが、実行される方法(ステップ)、装置、コンピュータプログラム等によっても、同様の作用効果を奏することができる。本実施形態におけるプログラムは、コンピュータが読み取り可能な非一過性の記録媒体として提供されても良いし、外部のサーバからダウンロード可能に提供されても良いし、クライアント端末でその機能を実施するために外部のコンピュータにおいて当該プログラムを起動させても良い(いわゆるクラウドコンピューティング)。
【0027】
また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらハードウェア資源によって具体的に実現され得るソフトウェアの情報処理とを合わせたものも含み得る。本実施形態において「情報」とは、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行され得る。
【0028】
広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)及びメモリ(Memory)等を適宜組み合わせることによって実現される回路である。即ち、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等を含むものである。
【0029】
<システム概要>
図1は、本実施形態におけるシーン抽出システムの構成を示すブロック図である。
図1に示すように、シーン抽出システム0は、シーン抽出装置1、ユーザ端末2、を備える。シーン抽出装置1は、ネットワークNWを介してユーザ端末2と通信可能に構成される。
【0030】
シーン抽出装置1は、動画、シーン、ユーザ、に関する情報等に基づいて、動画からユーザの嗜好に合うシーンを抽出する。シーン抽出装置1は、1つの動画から抽出したユーザの嗜好シーンに基づいて、その1つの動画中の別の分割シーンから類似シーンを抽出しても良い。また、シーン抽出装置1は、抽出した嗜好シーンに基づいて、複数の動画の複数の分割シーンから類似シーンを抽出しても良い。
【0031】
シーン抽出装置1としては、汎用のサーバ向けのコンピュータやパーソナルコンピュータ等を利用することが可能である。また、複数のコンピュータを用いてシーン抽出装置1を構成することも可能である。
【0032】
ユーザは、ユーザ端末2を介して、動画やシーンを視聴する。さらにユーザは、ユーザ端末2を介して、重視度等を入力してシーン抽出装置1に送信しても良い。ユーザ端末2としては、スマートフォンやタブレット端末、パーソナルコンピュータ等の端末装置を利用することができる。
【0033】
ネットワークNWは、本実施形態では、IP(Internet Protocol)ネットワークであるが、通信プロトコルの種類に制限はなく、更に、ネットワークの種類、規模にも制限はない。
【0034】
<ハードウェア構成>
図2は、ハードウェア構成図である。
図2(a)に示すように、情報処理装置10(シーン抽出装置1)は、制御部101、記憶部102、及び通信部103を有し、各部及び各工程の作用発揮に用いられる。
【0035】
制御部101は、CPU(Central Processing Unit)等の1又は2以上のプロセッサを含み、本発明に係るシーン抽出プログラム、OS(Operating System)やブラウザソフト、その他のアプリケーションを実行することで、情報処理装置10の動作処理全体を制御する。
【0036】
記憶部102は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、ROM(Read Only Memory)、RAM(Random Access Memory)等であって、本発明に係るシーン抽出プログラム及び、制御部101がプログラムに基づき処理を実行する際に利用するデータ等を記憶する。制御部101が、記憶部102に記憶されているシーン抽出プログラムに基づき処理を実行することによって、後述する機能構成が実現される。
【0037】
通信部103は、ネットワークNWとの通信制御を実行して、情報処理装置10を動作させるために必要な入力や、動作結果に係る出力を行う。
【0038】
図2(b)のように、端末装置9(ユーザ端末2)は、制御部91、記憶部92、通信部93、入力部94、及び出力部95を有し、各部及び各工程の作用発揮に用いられる。
【0039】
端末装置9の制御部91は、CPU等の1以上のプロセッサを含み、端末装置9の動作処理全体を制御する。端末装置9の記憶部92は、HDD、SSD、ROM、RAM等であって、上述のアプリケーション及び、制御部91がプログラムに基づき処理を実行する際に利用するデータ等を記憶する。
【0040】
端末装置9の通信部93は、ネットワークNWとの通信を制御する。端末装置9の入力部94は、マウス及びキーボード等であって、利用者/提供者による操作要求を制御部91に入力する。端末装置9の出力部95は、ディスプレイ等であって、制御部91の処理の結果等を表示する。
【0041】
<機能構成要素>
図2に示すように、シーン抽出装置1は、分割部11、特徴量生成部12、類似度算出部13、嗜好シーン抽出部14、嗜好スコア算出部15、類似シーン抽出部16、提示部17、変化重視度作成部18、重視度更新部19、フレーム抽出部1a、フレーム類似度算出部1b、ダイジェスト動画作成部1cを備える。
【0042】
これら機能構成要素の配置は一例であり、シーン抽出装置1の備えた機能構成の一部が、シーン抽出装置1やユーザ端末2と通信可能に構成された1又は複数の装置に配置されても良い。
【0043】
<データ構成>
図3及び4は、本実施形態における記憶部に格納されたデータ構成の一例である。シーン抽出装置1の記憶部は、分割シーン情報、映像類似度情報、音類似度情報、発話類似度情報、視聴履歴情報、重視度情報、類似度スコア情報、嗜好スコア情報、類似シーン情報、類似シーン類似度情報を格納する。
【0044】
各データの配置も一例であり、シーン抽出装置1の記憶部に格納されたデータの一部又は全部が、シーン抽出装置1やユーザ端末2と通信可能に構成された1又は複数の装置に格納されても良い。
【0045】
<分割シーンの作成>
図5は、本実施形態におけるシーン抽出処理のフローチャートである。まず、ステップS501において、分割部11は、動画をシーンごとに分割して分割シーン(例えば、チャプターごと、野球の打者ごと、サッカーの試合のシュートとそれ以外のシーン等)を作成する。分割部11が分割する動画の数は1つでも複数でも良い。本実施形態において分割部11は、管理している(記憶部に格納した、ユーザ端末を介して受け付けた)すべての動画をシーンごとに分割する。
【0046】
分割部11は、一定時間(例えば、5分)ごとの等間隔の時間で動画を分割しても良いし、動画の映像から変化点を検出して自動で分割しても良い。また、分割部11は、動画の映像を時間方向にクラスタリングを行うことによって類似する映像を1クラスタとして分割しても良いし、動画に対して分割するためのタグ(例えば、チャプター)が付与されている場合はそのタグによって分割しても良い。
【0047】
分割部11は、分割したシーンが何れの動画から分割されたものか、及び、分割元の動画の何れの区間のものか等に関する分割シーン情報を記憶部に格納する。分割シーン情報は、
図3(a)のように、動画ID、分割シーンID、動画区間、を含む。これによってシーン抽出装置1は、例えば、分割シーンID「M1_C2」が動画ID「M1」の動画の分割シーンであって、その動画の10~20分の区間のシーンであることを、参照することができる。
【0048】
<特徴量の生成>
ステップS502において、特徴量生成部12は、分割部11が作成した分割シーンの映像特徴量、音特徴量、発話特徴量を生成する。例えば、動画又はシーンを複数の要素に分解し、それぞれの要素に関する特徴量を生成することができる。本実施形態では、動画又はシーンを映像、音、発話の内容(会話の意味)、の3つの要素に分解し、特徴量生成部12は、それぞれの特徴量を映像特徴量、音特徴量、発話特徴量として生成する。
【0049】
本実施形態で映像特徴量は、動画又はシーンに現れるものやその動き等(例えば、物体の色、形、大きさ、動き、位置関係等)に関する特徴量である。本実施形態で音特徴量は、動画又はシーンにおける音(例えば、大きさ、速さ、周波数、波長等)に関する特徴量である。本実施形態で発話特徴量は、動画又はシーンにおける発話(音声)の内容(人間が理解可能な意味のある内容)に関する特徴量であって、例えば、人間の発話を抽出して自然言語処理をして生成する。
【0050】
特徴量生成部12は、分割シーンが含む映像(動きのあるもの、動きのないもの)や音(音声、非音声)をベクトル化することによって、特徴量を生成することが考えられる。特徴量生成部12は、
図3(a)のように、生成した特徴量を分割シーンIDに紐づけて記憶部に格納する。
【0051】
例えば、特徴量生成部12は、分割シーンをフレーム(静止画)ごとに分解して画像ファイル群を作成することによって、映像特徴量を生成する。
【0052】
画像ファイル群からの映像特徴量生成は、独自に学習されたエンコード用のモデルを用いても良いし、オープンソースソフトウェアとして公開されている学習済モデルを用いても良い。公開されているものとしては、例えばVision Transformerベースのモデルを用いても良く、400次元の特徴量を生成することができる。
【0053】
また、画像の模様を自然言語で説明するような学習済モデルも公開されており、画像から抽出される自然言語の情報をエンベディングする(埋め込む)ことで特徴量を生成することもできる。自然言語の情報をエンベディングする(埋め込む)モデルも独自に学習しても良いし、公開されている学習済モデルを用いても良い。公開されているものとしては、例えばOpenAI社がAPI(Application Programming Interface)として公開しているエンコードを適用しても良く、この場合は1536次元の特徴量を生成することができる。
【0054】
例えば、特徴量生成部12は、分割シーンから音に関する音情報のみを抽出して音ファイルを作成することによって、音特徴量を生成する。抽出する音情報は、人間の音声を含んでいても良いし、人間の音声を含んでいなくても良い。
【0055】
音ファイルからの特徴量生成は、独自に学習されたエンコード用のモデルを用いても良いし、オープンソースソフトウェアとして公開されている学習済モデルを用いても良い。公開されているものとしては、例えばVision Transformerベースのモデルを用いても良く、383232次元の特徴量を生成することができる。
【0056】
例えば、特徴量生成部12は、分割シーンから人間の発話(音声)に関する発話情報を抽出して発話特徴量を生成する。特徴量生成部12は、分割シーンから抽出した音声情報を用いて、音声認識を行い自然言語に変換することで発話言語ファイルを作成することが考えられる。
【0057】
発話言語ファイルからの特徴量は、独自に学習されたエンコード用のモデルを用いても良いし、オープンソースソフトウェアとして公開されている学習済モデルを用いても良い。公開されているものとしては、例えばOpenAI社がAPIとして公開しているエンコードを適用しても良く、この場合は1536次元の特徴量を生成することができる。
【0058】
<類似度の算出>
ステップS503において、類似度算出部13は、分割シーン同士の類似度を算出する。類似度算出部13は、分割された分割シーンの映像特徴量、音特徴量、発話特徴量、に基づいて、分割シーン同士の映像類似度、音類似度、発話類似度を算出する。
【0059】
類似度算出部13は、すべての分割シーン同士のそれぞれの特徴量の類似度(映像類似度、音類似度、発話類似度)を算出し、
図3(b)~(d)のように、記憶部に格納することが考えられる。分割シーンがN個存在する場合、類似度算出部13は、N×N回の計算をそれぞれの特徴量の類似度を算出するために行う。類似度算出部13は、ベクトル同士の類似度を算出するコサイン類似度によって、類似度を算出することが考えられる。
【0060】
また、類似度算出部13は、同じ分割シーン同士の類似度(例えば、分割シーンID「M1_C1」と「M1_C1」の類似度)を算出してもしなくても良い。ユーザが嗜好する嗜好シーンに類似する類似シーンとして、ユーザが一度視聴したものを抽出しても良い場合、類似度算出部13は、同じ分割シーン同士の類似度が高くなるように算出することが考えられる。一方、ユーザが一度視聴したものを抽出しない場合、類似度算出部13は、同じ分割シーン同士の類似度が低くなるように算出、又は、
図3(b)~(d)のように類似度を算出しないことが考えられる。
【0061】
<嗜好シーンの抽出>
ステップS504において、嗜好シーン抽出部14は、ユーザの視聴履歴に基づいて、複数の分割シーンからユーザが嗜好する嗜好シーンを抽出する。嗜好シーン抽出部14は、ユーザごとの分割シーンの視聴履歴に関する視聴履歴情報を記憶部に格納する。視聴履歴情報は、
図3(e)のように、ユーザID、分割シーンID、累積視聴時間、を含む。
【0062】
嗜好シーン抽出部14は、ユーザごとに、それぞれの分割シーンに対する視聴時間を集計し、累積視聴時間を算出する。これによってシーン抽出装置1は、例えば、ユーザID「U1」が過去に分割シーンID「M2_C1」の分割シーンを合計280秒間視聴したことを、参照することができる。
【0063】
嗜好シーン抽出部14は、累積視聴時間に基づいて、ユーザが嗜好する嗜好シーンを抽出する。例えば、嗜好シーン抽出部14は、分割シーンの累積視聴時間が一定時間(閾値)を超えた場合、その分割シーンを嗜好シーンとして抽出しても良い。嗜好シーン抽出部14は、嗜好シーンを抽出した場合、
図3(e)のように(その分割シーンIDに嗜好フラグ「1」を紐づけて)記憶部に格納しても良い。
【0064】
また、嗜好シーン抽出部14は、累積視聴時間がその分割シーンの再生時間に占める割合を用いて、嗜好シーンを抽出しても良い。分割シーンの累積視聴時間がそのシーンの再生時間の所定の割合(例えば、2分の1等)以上である場合、嗜好シーン抽出部14は、その分割シーンを嗜好シーンとして抽出する。本実施形態ではこの割合を2分の1とするが、これに限られず管理者等が端末を介して割合を設定することができる。
【0065】
例えば、分割シーンID「M1_C1」は、再生時間が600秒であるため、ユーザ「U1」の累積視聴時間が300秒の場合、嗜好シーン抽出部14は、分割シーンID「M1_C1」をユーザ「U1」の嗜好シーンとして抽出する。一方、分割シーンID「M2_C2」は、再生時間が630秒であるため、ユーザ「U1」の累積視聴時間が300秒の場合、嗜好シーン抽出部14は、分割シーンID「M2_C2」をユーザ「U1」の嗜好シーンとして抽出しない。
【0066】
この他にも、嗜好シーンの数量が限定されていても良い。例えば、嗜好シーン抽出部14は、累積視聴時間が上位M個(M=1、2、・・・)の分割シーンを嗜好シーンとして抽出しても良い。また、嗜好シーン抽出部14は、累積視聴時間がその分割シーンの再生時間に占める割合が上位M個の分割シーンを嗜好シーンとして抽出しても良い。
【0067】
嗜好シーン抽出部14は、更に、分割シーンに紐づくジャンルを用いて嗜好シーンを抽出しても良い。記憶部が、動画ID又は分割シーンIDにジャンルを紐づけて格納することによって、嗜好シーン抽出部14は、このジャンルを用いて嗜好シーンを抽出することが考えられる。
【0068】
例えば、ユーザ端末を介して、予めユーザの好みのジャンルを受け付け、記憶部がユーザIDに紐づけてそのジャンルを格納することによって、嗜好シーン抽出部14は、ユーザの累積視聴時間及び受け付けたジャンルに基づいて、嗜好シーンを抽出することができる。
【0069】
<嗜好スコアの算出>
ステップS505において、嗜好スコア算出部15は、嗜好シーン、映像類似度、音類似度、発話類似度、ユーザIDに紐づく重視度、に基づいて、嗜好スコアを算出する。記憶部は、
図4(f)のように、ユーザごとの映像重視度、音重視度、発話重視度、を格納する。それぞれのユーザの映像重視度、音重視度、発話重視度、の合計は1であっても良い。また、映像重視度、音重視度、発話重視度、の合計はユーザごとに異なっていても良い。ユーザ端末2を介して、嗜好スコア算出部15がユーザごとの重視度を受け付けても良い。
【0070】
類似シーンを抽出するうえで、映像、音、発話の何れを重視して抽出するかはユーザによって異なる。映像重視度は、ユーザが類似シーンを抽出するうえで映像という要素をどの程度重視するかに関する情報である。音重視度は、ユーザが類似シーンを抽出するうえで音という要素をどの程度重視するかに関する情報である。発話重視度は、ユーザが類似シーンを抽出するうえで発話(自然言語)という要素をどの程度重視するかに関する情報である。
【0071】
嗜好スコア算出部15は、類似度算出部13が算出したそれぞれの類似度に重視度(重み)を適用することによって、ユーザごとに適した類似シーンを抽出するための嗜好スコアを算出することができる。
【0072】
まず、嗜好スコア算出部15は、嗜好シーン、映像類似度、音類似度、発話類似度、に基づいて、
図4(g)のような類似度スコア情報を算出する。
図4(g)のそれぞれのスコアのカッコ内は、それぞれのスコアを算出するための計算を表す(
図3(b)~(d)の類似度との対応関係を示すために便宜上記載する)。例えば、分割シーンID「M1_C2」の映像スコアであれば、「M1_C2」と嗜好シーン「M1_C1」の映像類似度0.12、「M1_C2」と嗜好シーン「M2_C1」の映像類似度0.22を計算(合計)した結果が映像スコア0.34となる。
【0073】
嗜好スコア算出部15は、すべての嗜好シーン(嗜好フラグが1)とそれぞれの分割シーンのそれぞれの類似度に基づいて、分割シーンごとに嗜好シーンとの類似度を加算した類似度スコア(映像スコア、音スコア、発話スコア)を算出する。
【0074】
例えば、
図3(e)によると、ユーザID「U1」の嗜好シーンが分割シーンID「M1_C1」と「M2_C1」であるため、それぞれの類似度を加算して類似度スコアを算出する。
図4(g)の分割シーンID「M1_C2」の映像スコアは、分割シーンID「M1_C1」と「M1_C2」の映像類似度0.12、及び、分割シーンID「M2_C1」と「M1_C2」の映像類似度0.22、を合計した値0.34となる。このようにすることによって、複数の嗜好シーンを考慮した類似度スコアを算出し、類似シーンを抽出することができる。
【0075】
この他にも、嗜好スコア算出部15は、分割シーンID「M1_C2」の映像スコアとして、分割シーンID「M1_C1」と「M1_C2」の映像類似度0.12、及び、分割シーンID「M2_C1」と「M1_C2」の映像類似度0.22、をそれぞれ映像スコアとしても良い。
【0076】
嗜好スコア算出部15は、類似度スコア及び重視度に基づいて、嗜好スコアを算出する。嗜好スコア算出部15は、例えば、式(1)によってぞれぞれの分割シーンに対して嗜好スコアを算出し、
図4(h)のようにユーザID及び分割シーンIDに紐づけて記憶部に格納する。
図4(h)の嗜好スコアのカッコ内は、式(1)を用いた計算を表す(
図4(g)のスコアとの対応関係を示すために便宜上記載する)。例えば、分割シーンID「M2_C2」の嗜好スコアは1.022であって、カッコ内はそのスコアを導出するための計算である。
【0077】
【0078】
<類似シーンの抽出>
ステップS506において、類似シーン抽出部16は、嗜好シーン、映像類似度、音類似度、発話類似度、ユーザIDに紐づく重視度、に基づいて、分割シーンからユーザの嗜好シーンに類似する類似シーンを抽出する。類似シーン抽出部16は、嗜好スコア算出部15が算出した嗜好スコアに基づいて、分割シーンからユーザの嗜好シーンに類似する類似シーンを抽出する。
【0079】
例えば、類似シーン抽出部16は、嗜好スコアがある一定の数値(閾値)以上の分割シーンを類似シーンとして抽出することが考えられる。また、類似シーン抽出部16は、分割シーンの中から嗜好スコアが上位L個(L=1、2、・・・)を類似シーンとして抽出することが考えられる。
【0080】
<類似シーンの提示(レコメンド)>
ステップS507において、提示部17は、類似シーン抽出部16が抽出した類似シーンに基づいて、類似シーンを提示(レコメンド)する。提示部17は、更に、動画ID又は類似シーンIDに紐づくジャンルに基づいて、ジャンルごとに類似シーンを提示しても良い。
【0081】
<変化重視度の作成>
図6は、本実施形態における重視度更新処理のフローチャートである。上述の処理と同様の処理については、同様の符号を付してその説明を省略する。ステップS601において、変化重視度作成部18は、重視度及び所定条件に基づいて、重視度の全部又は一部を変化させた変化重視度を作成する。
【0082】
変化重視度は、所定条件に基づいてユーザIDに紐づく重視度を変化させた重視度である。もとの重視度(ユーザIDに紐づく重視度)に基づいて抽出した類似シーンとは異なるシーン(変化重視度類似シーン)を抽出するために、変化重視度作成部18は、ユーザIDに紐づく重視度に変化を与えた重視度(変化重視度)を作成する。
【0083】
変化重視度作成部18は、例えば、式(2)~(4)によって、それぞれの変化重視度(変化映像重視度、変化音重視度、変化発話重視度)を作成する。変化重視度作成部18は、式(2)~(4)によって、映像重視度をX倍(例えば、X=1.1)した変化映像重視度を作成し、更に、変化映像重視度、変化音重視度、変化発話重視度、の合計値が1となるような変化音重視度、変化発話重視度、を作成する。
【0084】
【0085】
変化重視度作成部18は、式(2)~(4)と同様に、音重視度をX倍した変化音重視度、発話重視度をX倍した変化発話重視度、を作成することができる。Xは、整数であっても良く、整数でない分数であっても良い。さらに、変化重視度作成部18は、Xをランダムに決定しても良く、定期的にXを変化させても良い。
【0086】
<変化重視度に基づく変化重視度類似シーンの抽出>
ステップS602において、嗜好スコア算出部15は、嗜好シーン、映像類似度、音類似度、発話類似度、変化重視度、に基づいて、嗜好スコアを算出しても良い。類似シーン抽出部16は、嗜好シーン、映像類似度、音類似度、発話類似度、変化重視度、に基づいて、分割シーンから変化重視度類似シーンを抽出する。
【0087】
<変化重視度類似シーンの提示(レコメンド)>
ステップS603において、提示部17は、ある一定の割合の変化重視度類似シーンを提示する。提示部17は、類似シーンと比べて低い割合の変化重視度類似シーンを提示する。
【0088】
提示部17は、例えば、K個(10個等)のシーンを提示する場合、類似シーンのうち嗜好スコアが高い7割、映像重視度をX倍した変化重視度類似シーンのうち嗜好スコアが高い方から1割、音重視度をX倍した変化重視度類似シーンのうち嗜好スコアが高い方から1割、発話重視度をX倍した変化重視度類似シーンのうち嗜好スコアが高い方から1割、を提示する。
【0089】
このように、提示部17が、提示するシーンの中に少量の変化重視度類似シーンを含めてシーンを提示することによって、ユーザが変化重視度類似シーンを好んで視聴する可能性が生じる。ユーザが、類似シーンよりも提示される数が少ない変化重視度類似シーンを好んで視聴する場合、現状のユーザIDに紐づく重視度よりも変化重視度の方がユーザの好みの重視度であると判定できる。
【0090】
<重視度の更新>
ステップS604において、重視度更新部19は、変化重視度類似シーンに関するユーザの視聴履歴に基づいて、変化重視度類似シーンに関連する変化重視度をユーザの重視度としてユーザIDに紐づけて更新する。重視度更新部19は、ユーザが映像重視度をX倍した変化重視度類似シーンを好んで視聴していると判定した場合、そのユーザの重視度をその変化重視度(映像重視度をX倍した変化映像重視度、それに伴って変化した音重視度及び発話重視度)に更新する。
【0091】
例えば、ユーザが1日で最も長い時間視聴した分割シーンが映像重視度をX倍した変化重視度類似シーンである場合、重視度更新部19は、ユーザが映像重視度をX倍した変化重視度類似シーンを好んで視聴していると判定し、その変化重視度をユーザの重視度としてユーザIDに紐づけて更新する。
【0092】
このように、変化重視度を定期的に変化させ、更に、ユーザの視聴履歴に基づいて重視度を更新することによって、ユーザの好みの重視度に近づけることが可能となる。
【0093】
<類似シーンからフレームの抽出>
図7は、本実施形態におけるダイジェスト動画作成処理のフローチャートである。上述の処理と同様の処理については、同様の符号を付してその説明を省略する。ステップS701において、フレーム抽出部1aは、類似シーン抽出部16が抽出した複数の類似シーンの最初のフレーム(静止画)と最後のフレーム(静止画)を抽出する。
【0094】
<フレーム類似度の算出>
ステップS702において、フレーム類似度算出部1bは、フレーム抽出部1aが抽出した最初のフレームと最後のフレームのフレーム類似度を算出する。フレーム類似度算出部1bは、フレーム抽出部1aが抽出した類似シーンの最初のフレームと、その類似シーンを除くフレーム抽出部1aが抽出した類似シーンの最後のフレームと、のフレーム類似度を算出する。
【0095】
フレーム類似度算出部1bは、類似シーン抽出部16が抽出したすべての類似シーンの最初のフレームの特徴量と最後のフレームの特徴量を生成し、
図4(i)のような類似シーン情報を記憶部に格納する。フレーム類似度算出部1bは、特徴量生成部12が特徴量を生成したのと同様に特徴量を生成することが考えられる。
【0096】
フレーム類似度算出部1bは、更に、すべての類似シーンの最初のフレームの特徴量と、すべての類似シーンの最後のフレームの特徴量と、に基づいて、類似度を算出し、
図4(j)のような類似シーン類似度情報を記憶部に格納する。フレーム類似度算出部1bは、ベクトル同士の類似度を算出するコサイン類似度によって、特徴量の類似度を算出することが考えられる。本実施形態では
図4(j)のように、フレーム類似度算出部1bは、同一の類似シーンの最初のフレームと最後のフレームの類似度を算出しない。
【0097】
<ダイジェスト動画の作成>
ステップS703において、ダイジェスト動画作成部1cは、類似シーン抽出部16が抽出した複数の類似シーンを用いて、ダイジェスト動画を作成する。ダイジェスト動画作成部1cは、例えば、抽出した類似シーンの中で嗜好スコアが高い順に類似シーンをつなぎ合わせてダイジェスト動画を作成しても良い。
【0098】
ダイジェスト動画作成部1cは、抽出した類似シーンにおいて嗜好スコア算出部15が算出した嗜好スコアが最も高いものをダイジェスト動画の先頭とし、先頭の類似シーンを除く類似シーンの最初のフレームの中で、先頭の類似シーンの最後のフレームとのフレーム類似度が最大である類似シーンを先頭の類似シーンの次のシーンとしてダイジェスト動画を作成しても良い。
【0099】
ダイジェスト動画作成部1cは、更に、それまでのダイジェスト動画の作成に利用した類似シーンを除く類似シーンの最初のフレームの中で、J番目(J=1、2、・・・)の最後のフレームとのフレーム類似度が最大である類似シーンをJ+1番目の類似シーンとしてダイジェスト動画を作成いても良い。
【0100】
例えば、類似シーン抽出部16が、類似シーンとして、類似シーンID「M4_C1」「M6_C2」「M10_C1」「M11_C1」を抽出したとする。さらに、類似シーンID「M10_C1」の嗜好スコアが最大である場合、ダイジェスト動画作成部1cは、類似シーンID「M10_C1」を先頭のシーンとする。
【0101】
図4(j)によると、類似シーンID「M10_C1」の最後のフレームと類似シーンID「M4_C1」の最初のフレームの類似度が最大であるため、ダイジェスト動画作成部1cは、類似シーンID「M4_C1」を次のシーンとする。
【0102】
さらに、
図4(j)によると、類似シーンID「M4_C1」の最後のフレームと類似シーンID「M10_C1」の最初のフレームの類似度が最大である一方、ダイジェスト動画の作成に既に類似シーンID「M10_C1」を利用している。よって、ダイジェスト動画作成部1cは、その類似シーンを除いて、類似シーンID「M4_C1」の最後のフレームとのフレーム類似度が最大である類似シーンID「M11_C1」を次のシーンとする。ダイジェスト動画作成部1cは、抽出した類似シーンをすべて利用するまでこのような処理を繰り返してダイジェスト動画を作成する。
【0103】
以上のように、本発明の構成によれば、ユーザの嗜好に合うシーンを抽出する新たな技術を提供することができる。
【符号の説明】
【0104】
0 シーン抽出システム
1 シーン抽出装置
11 分割部
12 特徴量生成部
13 類似度算出部
14 嗜好シーン抽出部
15 嗜好スコア算出部
16 類似シーン抽出部
17 提示部
18 変化重視度作成部
19 重視度更新部
1a フレーム抽出部
1b フレーム類似度算出部
1c ダイジェスト動画作成部
2 ユーザ端末
NW ネットワーク
【要約】
【課題】
ユーザの嗜好に合うシーンを抽出する新たな技術を提供すること。
【解決手段】
シーン抽出システム0は、記憶部、分割部、類似度算出部、嗜好シーン抽出部、類似シーン抽出部、を備える。分割部は、動画をシーンごとに分割する。記憶部は、分割された分割シーンにおける、ユーザごとの、映像に関する特徴に対する映像重視度、音に関する特徴に対する音重視度、発話に関する特徴に対する発話重視度、をユーザIDに紐づけて格納する。類似度算出部は、分割された分割シーンの映像特徴量、音特徴量、発話特徴量、に基づいて、分割シーン同士の映像類似度、音類似度、発話類似度、を算出する。嗜好シーン抽出部は、ユーザの視聴履歴に基づいて、複数の分割シーンからユーザが嗜好する嗜好シーンを抽出する。類似シーン抽出部は、嗜好シーン、類似度、ユーザIDに紐づく重視度、に基づいて、分割シーンから類似シーンを抽出する。
【選択図】
図1