(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-30
(45)【発行日】2024-02-07
(54)【発明の名称】動画解析システム、動画解析装置、動画解析方法、およびプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240131BHJP
【FI】
G06T7/00 Z
(21)【出願番号】P 2020045954
(22)【出願日】2020-03-17
【審査請求日】2021-10-20
【新規性喪失の例外の表示】特許法第30条第2項適用 開催日:令和1年12月8日 集会名:Yahoo! JAPAN Science Conference 2019 開催場所:東京都千代田区紀尾井町1番3号(ヤフー株式会社本社)
【前置審査】
(73)【特許権者】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】100149548
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100154852
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100181124
【氏名又は名称】沖田 壮男
(74)【代理人】
【識別番号】100194087
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】中嶋 直也
(72)【発明者】
【氏名】水野 加寿代
(72)【発明者】
【氏名】山下 直晃
【審査官】片岡 利延
(56)【参考文献】
【文献】特開2006-039753(JP,A)
【文献】特開2017-097888(JP,A)
【文献】特開2016-178519(JP,A)
【文献】特開2004-192400(JP,A)
【文献】特表2001-526859(JP,A)
【文献】特開2002-245051(JP,A)
【文献】特表2019-532422(JP,A)
【文献】特開2011-223327(JP,A)
【文献】特開2019-153017(JP,A)
【文献】伊藤直也,[新]はてなブックマーク構築ノウハウ大公開 第2章利用ソフトウェアからみる新システム,WEB+DB PRESS ,日本,(株)技術評論社,2009年03月25日,Vol.49,第63頁
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
少なくとも対象となる動画とサムネイル画像を指定する情報を含み、動画に対する処理内容を指示する指示情報を操作者から受け付け、前記指示情報に応じたAPI(Application Programming Interface)を実行する第1処理部と、
前記実行されたAPIに応じた動画に対する処理の少なくとも一部を分散環境で実行する第2処理部と、
を備え、
前記第2処理部が実行する処理は、前記動画に含まれる一以上のフレーム画像のうち前記サムネイル画像に類似する画像を抽出する類似画像抽出処理を含み、
前記第2処理部は、前記類似画像抽出処理の少なくとも一部を分散環境で実行し、
前記第1処理部は、前記第2処理部によって抽出された前記サムネイル画像に類似する度合いが高い一以上のフレーム画像を表示部に表示させ、
前記類似画像抽出処理は、動画スプリット処理を一括処理で実行し、少なくとも動画スプリット処理の結果として得られた分割動画のそれぞれに対する処理を分散環境で実行するものである、
動画解析システム。
【請求項2】
前記分割動画のそれぞれに対する処理は、キーフレーム抽出処理および特徴量抽出処理を含む、
請求項1記載の動画解析システム。
【請求項3】
前記第2処理部は、前記指示情報の内容を保持すると共に前記第1処理部によりAPIが実行されるのに応じてAPIの実行を通知するタスクキュー部と、
前記通知に応じて前記第1処理部により実行されたAPIに応じた処理を分散環境で実行する複数のプロセス実行部と、
を備える、請求項1または2記載の動画解析システム。
【請求項4】
前記第2処理部は、前記指示情報の内容をリストによって保持するジョブキュー部と、
前記リストから処理の内容を取得してスケジューラに渡すタスク登録部と、
前記スケジューラから処理の内容を取得して分散環境で処理を実行する複数のプロセス実行部と、
を備える、請求項1または2記載の動画解析システム。
【請求項5】
少なくとも対象となる動画とサムネイル画像を指定する情報を含み、動画に対する処理内容を指示する指示情報を操作者から受け付け、前記指示情報に応じたAPIを実行する第1処理部と、
前記実行されたAPIに応じた動画に対する処理の少なくとも一部を分散環境で実行する第2処理部と、
を備え、
前記第2処理部が実行する処理は、前記動画に含まれる一以上のフレーム画像のうち前記サムネイル画像に類似する画像を抽出する類似画像抽出処理を含み、
前記第2処理部は、前記類似画像抽出処理の少なくとも一部を分散環境で実行し、
前記第1処理部は、前記第2処理部によって抽出された前記サムネイル画像に類似する度合いが高い一以上のフレーム画像を表示部に表示さ
せ、
前記類似画像抽出処理は、動画スプリット処理を一括処理で実行し、少なくとも動画スプリット処理の結果として得られた分割動画のそれぞれに対する処理を分散環境で実行するものである、
動画解析装置。
【請求項6】
動画解析装置が、
少なくとも対象となる動画とサムネイル画像を指定する情報を含み、動画に対する処理内容を指示する指示情報を操作者から受け付け、前記指示情報に応じたAPIを実行する第1処理と、
前記実行されたAPIに応じた動画に対する処理の少なくとも一部を分散環境で実行する第2処理と、
を実行し、
前記第2処理は、前記動画に含まれる一以上のフレーム画像のうち前記サムネイル画像に類似する画像を抽出する類似画像抽出処理と、前記類似画像抽出処理の少なくとも一部を分散環境で実行する処理とを含み、
前記第1処理は、前記第2処理によって抽出された前記サムネイル画像に類似する度合いが高い一以上のフレーム画像を表示部に表示させることを含み、
前記類似画像抽出処理は、動画スプリット処理を一括処理で実行し、少なくとも動画スプリット処理の結果として得られた分割動画のそれぞれに対する処理を分散環境で実行するものである、
動画解析方法。
【請求項7】
動画解析装置に、
少なくとも対象となる動画とサムネイル画像を指定する情報を含み、動画に対する処理内容を指示する指示情報を操作者から受け付け、前記指示情報に応じたAPIを実行する第1処理と、
前記実行されたAPIに応じた動画に対する処理の少なくとも一部を分散環境で実行する第2処理と、
を実行させ、
前記第2処理は、前記動画に含まれる一以上のフレーム画像のうち前記サムネイル画像に類似する画像を抽出する類似画像抽出処理と、前記類似画像抽出処理の少なくとも一部を分散環境で実行する処理とを含み、
前記第1処理は、前記第2処理によって抽出された前記サムネイル画像に類似する度合いが高い一以上のフレーム画像を表示部に表示させることを含み、
前記類似画像抽出処理は、動画スプリット処理を一括処理で実行し、少なくとも動画スプリット処理の結果として得られた分割動画のそれぞれに対する処理を分散環境で実行するものである、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画解析システム、動画解析装置、動画解析方法、およびプログラムに関する。
【背景技術】
【0002】
従来、動画コンテンツにおけるシーンの切り替わりを検出し、各シーンの画像を前記動画コンテンツから抽出する抽出部と、前記動画コンテンツに含まれる音響情報の時間的推移を解析する解析部と、前記抽出部によって抽出された前記各シーンの画像の一覧と、前記解析部によって解析された前記音響情報の時間的推移を示す画像とを表示部へ表示する表示処理部と、を備え、前記解析部は、前記音響情報の時間的推移として、前記動画コンテンツに含まれる音響信号の大きさおよび周波数のうち少なくとも一以上の時間的推移を解析することを特徴とする情報処理装置の発明が開示されている(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の技術では、動画に含まれる一以上のフレーム画像のうち比較対象画像に類似する画像を抽出する処理を、高速に行うことができない場合があった。
【0005】
本発明は、このような事情を考慮してなされたものであり、動画に含まれる一以上のフレーム画像のうち比較対象画像に類似する画像を抽出する処理を、高速に行うことを目的の一つとする。
【課題を解決するための手段】
【0006】
本発明の一態様は、動画に対する処理内容を指示する指示情報を操作者から受け付け、前記指示情報に応じたAPIを実行する第1処理部と、前記実行されたAPIに応じた動画に対する処理の少なくとも一部を分散環境で実行する第2処理部と、を備え、前記第1処理部は、前記第2処理部によって実行された処理の結果を出力部に出力させ、前記第2処理部が実行する処理は、動画に含まれる一以上のフレーム画像のうち比較対象画像に類似する画像を抽出する類似画像抽出処理を含み、前記第2処理部は、前記類似画像抽出処理の少なくとも一部を分散環境で実行する、動画解析システムである。
【発明の効果】
【0007】
本発明の一態様によれば、動画に含まれる一以上のフレーム画像のうち比較対象画像に類似する画像を抽出する処理を、高速に行うことができる。
【図面の簡単な説明】
【0008】
【
図1】動画解析システムを構成する動画解析装置100の構成と使用環境の一例を示す図である。
【
図2】第1実施形態に係る動画解析装置100の機能について説明するための図である。
【
図3】操作者端末装置20によって表示される結果出力画像IMの一例を示す図である。
【
図4】第2実施形態に係る動画解析装置100の機能について説明するための図である。
【発明を実施するための形態】
【0009】
以下、図面を参照し、本発明の動画解析システムの実施形態について説明する。
【0010】
<第1実施形態>
図1は、動画解析システムを構成する動画解析装置100の構成と使用環境の一例を示す図である。動画解析装置100は、一以上のプロセッサにより実現される。動画解析装置100は、ネットワークNWを介して入稿者端末装置10や操作者端末装置20、動画配信装置200などと通信する。ネットワークNWは、例えば、WAN(Wide Area Network)やLAN(Local Area Network)、インターネット、セルラー網、公衆回線等を含む。なお、動画解析装置100は、動画配信装置200の一部であってもよいし、動画配信装置200とは別体の装置であってもよい。また、
図1では動画解析システムの構成要素が動画解析装置100に実装されているものとしているが、例えばフロントエンド処理部120が操作者端末装置20に実装されてもよい。その場合、操作者端末装置20は動画解析システムの一部を構成する。
【0011】
入稿者端末装置10は、動画配信装置200によって不特定多数の端末装置に配信される動画を動画配信装置200に送信する。入稿者端末装置10を操作する入稿者は、動画配信装置200を運営する運営者とは異なる主体(コンテンツプロバイダー)の担当者である。
【0012】
操作者端末装置20は、動画解析装置100を操作し、動画解析装置100の処理結果を利用する操作者によって使用される。操作者端末装置20は、表示装置やスピーカなどの出力部を備える。操作者端末装置20では、動画解析装置100が提供するインターフェース画像が表示され、各種の指示情報の入力が可能となっている。動画解析装置100は、例えばウェブサーバの機能を有しており、操作者端末装置20は、ブラウザやアプリケーションプログラムなどのUA(User Agent)によって動画解析装置100の提供するインターフェース画像を表示する。
【0013】
動画解析装置100は、例えば、通信部110、フロントエンド処理部120(第1処理部の一例)、ファイルシステム130、およびバックエンド処理部140(第2処理部の一例)を備える。フロントエンド処理部120、ファイルシステム130、およびバックエンド処理部140は、例えば、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることで記憶装置にインストールされてもよい。バックエンド処理部140が分散環境で処理を行うものであるため、ハードウェアプロセッサは、マルチコアプロセッサなどの並列処理が可能なものであることが好ましい。なお、バックエンド処理部140は、シングルコアプロセッサを用いて時分割で分散処理を行っても構わない。
【0014】
通信部110は、ネットワークNWにアクセスするための通信インターフェースである。例えば、通信部110はネットワークカードを含む。
【0015】
フロントエンド処理部120は、動画に対する処理内容を指示する指示情報を操作者端末装置20から受け付け、指示情報に応じたAPI(Application Programming Interface)を実行する。フロントエンド処理部120は、バックエンド処理部140によって実行された処理の結果を操作者端末装置20に出力させる。フロントエンド処理部120は、例えば、フリーソフトウェアであるFFmpegに周辺機能を付加することで実現される。フロントエンド処理部120は、コマンドラインのツールとして機能し、ライブラリを直に読み出して細かい制御をすることを可能とする。フロントエンド処理部120は、Pythonのコールバックを可能にすることで効率的に情報を取得でき、長尺の動画についてシーケンシャルな処理を行うこと、或いはシーク処理などを可能としている。
【0016】
ファイルシステム130は、記憶部150にデータを展開して管理する。ファイルシステム130は、フロントエンド処理部120とバックエンド処理部140との間で受け渡されるデータを仲介する役割を有している。
【0017】
バックエンド処理部140は、フロントエンド処理部120により実行されたAPIに応じた動画に対する処理の少なくとも一部を、分散環境で実行する。分散環境とは、典型的には同時並行して処理を行うことが可能な複数の処理主体によって処理を実行する環境をいう。バックエンド処理部140が実行する処理は、動画に含まれる一以上のフレーム画像のうち比較対象画像に類似する画像を抽出する類似画像抽出処理を含み、バックエンド処理部140は、類似画像抽出処理の少なくとも一部を分散環境で実行する。比較対象画像とは、例えば入稿者端末装置10から動画と共に取得されたサムネイル画像である。そのように取得されるサムネイル画像には、誤って選択された他の動画のフレーム画像であったり、シリーズ物の動画において何巻目に対応するのか不明な場合があったりするため、類似画像抽出処理は、動画に対して適切なサムネイル画像であるか否かを判断するための情報を提供することを目的としている。なお、類似画像抽出処理の他にも、バックエンド処理部140は、動画トランスコード、動画エンコード(目視確認のためのサイズダウン処理)などの処理を、必要に応じて分散環境で行うことができる。
【0018】
図2は、第1実施形態に係る動画解析装置100の機能について説明するための図である。まず、入稿者端末装置10から動画とサムネイル画像が入稿される。これに対して、操作者端末装置20に対して操作者が操作を行うことで、動画スプリット処理、キーフレーム抽出処理、特徴量抽出処理、サムネイル類似度判定処理が、順次あるいは一連のシーケンス処理としてフロントエンド処理部120に指示される。指示情報とは、これらを順次指示する複数の情報であってもよいし、一連のシーケンス処理として指示する情報であってもよい。
【0019】
まず、フロントエンド処理部120は、動画スプリット処理をバックエンド処理部140に実行させるためのAPIを実行する。バックエンド処理部140には、複数のタスクキュー部142がデーモンプログラムとして常駐している。そのうち一つのタスクキュー部142がAPIの実行に反応し、例えば一つのプロセス実行部144に通知する。
【0020】
プロセス実行部144は、OS(Operating System)機能を有している。上記の通知を受けたプロセス実行部144は、APIによって指示される動画スプリット処理を一括で行う。動画スプリット処理は分散環境で実行されてもさほど効率が向上しないものであるため、バックエンド処理部140では動画スプリット処理を一括処理で行う。入稿者端末装置10から入稿された動画は、例えば、MPEG2-PSなどの規格によって区切られており、プロセス実行部144は、FFmpegの機能を用いて、規格による区切りに沿って動画を分割する。プロセス実行部144による処理が終了すると、タスクキュー部142が処理結果である分割された動画(分割動画)をファイルシステム130に登録する。
【0021】
次に、フロントエンド処理部120は、キーフレーム抽出処理をバックエンド処理部140に実行させるためのAPIを実行する。一つのタスクキュー部142がAPIの実行に反応し、複数のプロセス実行部144に通知してキーフレーム抽出処理を分散処理させる。キーフレーム抽出処理とは、分割画像のそれぞれにおけるキーフレーム(代表フレーム)を抽出する処理である。プロセス実行部144は、例えば、前後のフレーム画像との輝度変化の大きいフレーム画像を分割動画の中から二つ抽出し、抽出したフレーム画像の時間的に中間の位置にあるフレーム画像、すなわち輝度変化の小さい平穏なフレーム画像をキーフレームとする。プロセス実行部144による処理が終了すると、タスクキュー部142が処理結果である分割画像ごとのキーフレームをファイルシステム130に登録する。
【0022】
次に、フロントエンド処理部120は、キーフレームおよびサムネイル画像の特徴量抽出処理をバックエンド処理部140に実行させるためのAPIを実行する。一つのタスクキュー部142がAPIの実行に反応し、複数のプロセス実行部144に通知して特徴量抽出処理を分散処理させる。プロセス実行部144は、例えば、SIFT(Scale-Invariant Feature Transform)やHarrisなどの処理を行なってもよいし、CNN(Convolution Neural Network)などの機械学習を利用したモデルにキーフレームを入力することで出力を得るようにしてもよい。プロセス実行部144による処理が終了すると、タスクキュー部142が処理結果であるキーフレームごとの特徴量とサムネイル画像の特徴量をファイルシステム130に登録する。
【0023】
次に、フロントエンド処理部120は、サムネイル類似度判定処理をバックエンド処理部140に実行させるためのAPIを実行する。一つのタスクキュー部142がAPIの実行に反応し、一つまたは複数のプロセス実行部144に通知してサムネイル類似度判定処理を実行させる。プロセス実行部144は、サムネイル画像の特徴量と、複数のキーフレームごとの特徴量とを一つずつ比較し、類似度が高い順にソートする。特徴量は、例えばベクトル形式で表されており、プロセス実行部144は、それらの距離を類似度として算出する。プロセス実行部144による処理が終了すると、タスクキュー部142が処理結果である類似度ランキング結果をファイルシステム130に登録する。類似度ランキング結果は、複数のキーフレームを、特徴量の類似度が高い順にランキングした結果である。
【0024】
類似度ランキング結果がファイルシステム130に登録されると、フロントエンド処理部120は、自動的に、或いは操作者の操作に応じて、類似度ランキング結果に基づく情報を操作者端末装置20に出力する。操作者端末装置20は、入力された情報に応じた画像を表示する。
図3は、操作者端末装置20によって表示される結果出力画像IMの一例を示す図である。図示するように、結果出力画像IMは、動画タイトルや再生時間の他、サムネイル画像と、類似度ランキング結果に含まれる類似画像とを含む。図中、類似画像(1)となっているものは、特徴量がサムネイル画像の特徴量に最も類似すると判定されたキーフレームである。以下、類似画像(2)、(3)についても同様である。操作者は、このような画像を視認することで、動画に対して適切なサムネイル画像が付加されているかどうかを確認することができる。
【0025】
以上説明した第1実施形態によれば、動画に含まれる一以上のフレーム画像のうち比較対象画像(サムネイル画像)に類似する画像を抽出する処理を、高速に行うことができる。
【0026】
<第2実施形態>
以下、第2実施形態について説明する。
図4は、第2実施形態に係る動画解析装置100の機能について説明するための図である。第2実施形態において、フロントエンド処理部120によって各種処理を指示するためのAPIが実行されると、その情報がジョブキュー部146に伝えられる。ジョブキュー部146は、処理のリストを生成する。そして、例えば複数のタスク登録部147が常駐している。これによって、動画に対する指示が複数、略同時になされた場合でも、タスク登録部147の数に応じたタスクの実行が可能である。タスク登録部147は、リストから取得した処理の内容をスケジューラ148に登録する。スケジューラ148は、例えば、順序性のある処理について優先順を付与した処理のリストを生成する。スケジューラ148により生成された処理のリストに応じた数のプロセス実行部144が自動的に生成される。但し、ハードウェアの限界に達する数がプロセス実行部144の数の上限となる。プロセス実行部144は、スケジューラ148のリストを参照し、自身でファイルシステム130内の対象情報を取得して第1実施形態と同様の各種処理(動画スプリット処理、キーフレーム抽出処理、特徴量抽出処理、サムネイル類似度判定処理、動画トランスコード、動画エンコードなど)を行う。これによって、プロセス実行部144の数に応じた並列処理が実行され、高速処理が実現されるが、ハードウェアリソースが足りない場合は、スケジューラ148に登録された状態で処理待ちとなる。
【0027】
以上説明した第2実施形態によれば、第1実施形態と同様の効果を奏することができる。
【0028】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0029】
10 入稿者端末装置
20 操作者端末装置
100 画像解析装置
110 通信部
120 フロントエンド処理部
130 ファイルシステム
140 バックエンド処理部
142 タスクキュー部
144 プロセス実行部
146 ジョブキュー部
147 タスク登録部
148 スケジューラ