(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-18
(45)【発行日】2023-10-26
(54)【発明の名称】動画要約装置、動画要約方法、及びプログラム
(51)【国際特許分類】
G06Q 10/10 20230101AFI20231019BHJP
G06Q 50/10 20120101ALI20231019BHJP
【FI】
G06Q10/10
G06Q50/10
(21)【出願番号】P 2021106710
(22)【出願日】2021-06-28
【審査請求日】2022-02-09
(73)【特許権者】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】石井 健
(72)【発明者】
【氏名】松本 貴宏
(72)【発明者】
【氏名】奥村 宜宗
【審査官】田付 徳雄
(56)【参考文献】
【文献】特開2008-152605(JP,A)
【文献】特開2004-333738(JP,A)
【文献】国際公開第2016/098458(WO,A1)
【文献】特開2003-255981(JP,A)
【文献】特開2019-212308(JP,A)
【文献】特開2003-255979(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
動画の要約を作成する動画要約装置であって、
前記動画に含まれる音声に対して音声認識を行うことにより、テキストを取得する音声テキスト化部と、
前記テキストから得られた文章を複数の文に要約する文章要約部と、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成部と、を備え、
前記文章要約部は、前記文章の要約結果である前記複数の文をユーザに対して出力し、
前記要約動画生成部は、ユーザから指定された文を前記複数の文に追加する追加処理、又は、ユーザから指定された文を前記複数の文から削除する削除処理を実行し、前記追加処理又は前記削除処理がなされた複数の文から要約動画を生成する
動画要約装置。
【請求項2】
動画の要約を作成する動画要約装置であって、
前記動画に含まれるテキストから得られた文章を複数の文に要約する文章要約部と、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成部と、を備え、
前記文章要約部は、前記文章の要約結果である前記複数の文をユーザに対して出力し、
前記要約動画生成部は、ユーザから指定された文を前記複数の文に追加する追加処理、又は、ユーザから指定された文を前記複数の文から削除する削除処理を実行し、前記追加処理又は前記削除処理がなされた複数の文から要約動画を生成する
動画要約装置。
【請求項3】
前記文章要約部は、ユーザから指定された時間長、ユーザから指定された文の数、ユーザから指定された要約率、又は、予め定めた要約率に基づいて、前記要約を実行する
請求項1又は2に記載の動画要約装置。
【請求項4】
動画の要約を作成する動画要約装置が実行する動画要約方法であって、
前記動画に含まれる音声に対して音声認識を行うことにより、テキストを取得する音声テキスト化ステップと、
前記テキストから得られた文章を複数の文に要約する文章要約ステップと、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成ステップと、を備え、
前記文章要約ステップにおいて、前記文章の要約結果である前記複数の文をユーザに対して出力し、
前記要約動画生成ステップにおいて、ユーザから指定された文を前記複数の文に追加する追加処理、又は、ユーザから指定された文を前記複数の文から削除する削除処理を実行し、前記追加処理又は前記削除処理がなされた複数の文から要約動画を生成する
動画要約方法。
【請求項5】
動画の要約を作成する動画要約装置が実行する動画要約方法であって、
前記動画に含まれるテキストから得られた文章を複数の文に要約する文章要約ステップと、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成ステップと、を備え、
前記文章要約ステップにおいて、前記文章の要約結果である前記複数の文をユーザに対して出力し、
前記要約動画生成ステップにおいて、ユーザから指定された文を前記複数の文に追加する追加処理、又は、ユーザから指定された文を前記複数の文から削除する削除処理を実行し、前記追加処理又は前記削除処理がなされた複数の文から要約動画を生成する
動画要約方法。
【請求項6】
コンピュータを、請求項1ないし
3のうちいずれか1項に記載の動画要約装置における各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画を要約する技術に関連するものである。
【背景技術】
【0002】
長時間にわたる動画(映像と呼んでもよい)の内容を短時間で把握したいという要求が従来からあり、様々な動画要約技術が提案されている(例えば特許文献1~3)。
【0003】
一例として、発表を撮影した多数の動画から、優れた発表を選ぶ状況において、個々の動画を、時間をかけて視聴することは難しい。動画要約技術を用いることで、短時間で個々の動画の内容を把握でき、効率的な評価を行うことができる。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2010-039877号公報
【文献】特開2011-061263号公報
【文献】特開2015-099958号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の動画要約技術においては、一般に、動画から特定のジャンルに関連する画像の特徴を抽出し、その特徴を用いて動画の要約を作成している。しかし、動画には、多くのジャンルが存在しており、今後これまでにないジャンル、表現が生まれてくる可能性もある。
【0006】
従って、従来技術における動画要約技術では、要約を実施できる動画が特定のジャンルのものに限定されてしまい、汎用的に動画を要約できないという課題がある。
【0007】
本発明は上記の点に鑑みてなされたものであり、特定のジャンルに限定されない汎用性の高い動画要約技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
開示の技術によれば、動画の要約を作成する動画要約装置であって、
前記動画に含まれる音声に対して音声認識を行うことにより、テキストを取得する音声テキスト化部と、
前記テキストから得られた文章を複数の文に要約する文章要約部と、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成部と、を備え、
前記文章要約部は、前記文章の要約結果である前記複数の文をユーザに対して出力し、
前記要約動画生成部は、ユーザから指定された文を前記複数の文に追加する追加処理、又は、ユーザから指定された文を前記複数の文から削除する削除処理を実行し、前記追加処理又は前記削除処理がなされた複数の文から要約動画を生成する
動画要約装置が提供される。
【発明の効果】
【0009】
開示の技術によれば、特定のジャンルに限定されない汎用性の高い動画要約技術を実現することが可能となる。
【図面の簡単な説明】
【0010】
【
図1】本発明の実施の形態におけるシステムの全体構成図である。
【
図3】システムの動作を説明するためのシーケンス図である。
【
図6】動画区間の抽出方法の例を説明するための図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下で説明する実施の形態に限られるわけではない。
【0012】
以下の説明では、特に断らない限り、「動画」は、音声入りの動画であるものとする。当該音声入りの動画において、音声と動画は同期している。また、動画に音声を含める形式についてはどのような形式であってもよい。例えば、動画と音声が別ファイルで提供される形式のものであってもよい。
【0013】
(システム構成例)
図1に、本実施の形態におけるシステムの全体構成例を示す。
図1に示すように、本システムは、動画要約装置100と端末200がネットワーク300に接続された構成を有する。
【0014】
動画要約装置100は、本発明に係る技術により動画を要約する装置である。端末200は、スマートフォン、PC等の一般的な端末である。ネットワーク300は、例えばインターネットである。ネットワーク300は、LAN等の小規模なネットワークであってもよい。
【0015】
(動画要約装置100の構成例)
図2に、動画要約装置100の機能構成例を示す。
図2に示すように、動画要約装置100は、動画データ取得部110、音声テキスト化処理部120、文章要約部130、動画区間抽出部140、要約動画生成部150、データ記憶部160を有する。なお、動画区間抽出部140の機能を、要約動画生成部150内に含めてもよい。各部の機能概要は下記のとおりである。
【0016】
動画データ取得部110は、端末200等から動画のデータを取得する。音声テキスト化処理部120は、動画における音声を文章に変換する。文章要約部130は、音声テキスト化処理部120により音声から変換された文章を要約する。動画区間抽出部140は、音声テキスト化処理部120により得られた要約文(抽出文)の時間位置に基づいて、動画の時間区間を抽出する。要約動画生成部150は、動画区間抽出部140により抽出された時間区間の動画を用いて要約動画を生成する。データ記憶部160は各種データを格納する。
【0017】
(システムの動作例)
次に、
図3のシーケンスチャートの手順に沿って、システムの動作例を説明する。ここでは、端末200が様々な動画のデータ(動画ファイルと呼んでもよい)を保持していると想定する。また、各動画は、人の発話の音声を含んでいる。
【0018】
端末200のユーザがある動画の要約を視聴したと考え、S101において、ユーザは、端末200に対して要約の視聴を希望する動画を指定する。
【0019】
S102において、端末200は、指定された動画のデータを動画要約装置100にアップロードする。動画要約装置100の動画データ取得部110が動画のデータを受信し、データ記憶部160に格納する。
【0020】
音声テキスト化処理部120は、データ記憶部160から動画のデータを読み出し、当該データから音声(ここでは人の発話音声)を取得して音声認識を実行し、音声をテキストに変換する(S103、S104)。
【0021】
S105において、音声テキスト化処理部120は、音声から変換されたテキストから、複数の文からなる文章を生成する。この文章は、文の一覧の形式で生成されてもよい。S106において、音声テキスト化処理部120は、それぞれの文の時間情報(区間、長さ)を取得する。生成された文章(文の一覧)は各文の時間情報とともにデータ記憶部160に格納される。なお、音声認識により音声から文章を生成する技術自体は既存技術である。
【0022】
S107において、音声テキスト化処理部120は、生成した文の一覧(各文の時間情報付き)を端末200に送信する。S108において、端末200上に文の一覧が表示される。
【0023】
図4に、S108において端末200上に表示される画面の例を示す。この例では、対象となっている動画の時間長、及び、音声認識により得られた文の一覧がその時刻(時間)とともに画面上に表示されている。「要約時間長」の指定により、希望する要約動画の長さ(時間長)を指定できる。また、「要約作成開始」ボタンにより要約開始を指示できる。
【0024】
なお、希望する要約動画の長さの指定に関しては、文の数で指定してもよい。例えば、全体で100文がある場合に、文数として「20」を指定することで、要約により20文の分の要約動画を作成することができる。
【0025】
また、全体の長さに対する要約の長さの比率(要約率と呼ぶ)で希望する要約動画の長さを指定してもよい。例えば「6分の1」を指定した場合、60分の動画から10分の要約動画が生成され、6分の動画から1分の動画が生成される。
【0026】
また、希望する要約動画の長さを指定せずに、予め決められた要約率で要約動画を生成してもよい。
【0027】
図3のS109において、ユーザは、端末200上で希望する要約時間長を指定し、要約作成開始を指示する。S110において、要約作成命令とともに、上記時間長が、端末200から動画要約装置100に送信される。動画要約装置100の文章要約部130は、要約作成命令と時間長を受信する。
【0028】
S111において、文章要約部130は、音声テキスト化処理部120により得られた文章(文の一覧)と時間情報をデータ記憶部160から読み出し、指定された時間長になるように、文章の要約を作成する。文章の要約自体は既存技術で実現できる。
【0029】
文章の要約を行うための既存技術としてどのような技術を使用してもよいが、本実施の形態では、一例として、文章から、複数の文を抽出することで要約を行う。例えば、全体の文章の中に、文1~文60の60個の文が含まれているとする。各文には、動画における時間区間(開始時刻、終了時刻、時間長)が対応付けられている。
【0030】
例えば、指定された時間長が10分であるとした場合、文章要約部130は、要約に含める文の時間長の合計が10分になるように、例えば、「文1(時間長1分)、文20(時間長1分)、文21(時間長2分)、文53(時間長3分)、文54(時間長1分)、文60(時間長2分)」といったようにして、重要と考えられる複数の文を抽出する。抽出された文、及び時間区間の情報はデータ記憶部160に格納される。
【0031】
前述したように、要約の長さとして、時間長ではなく、文の数や要約率を指定することも可能である。文の数が指定された場合には、指定された数だけ文を抽出する。要約率が指定された場合には、その要約率に該当する時間長になるように文を抽出する。
【0032】
図3の例では、S111の次にS112に進む。ただし、S111の次にS112に進むことは例であり、S111の次に、S112の前に、文章要約部130は、要約の結果である複数の文(文の一覧)を端末200に送信してもよい。つまり、要約の結果である複数の文(文の一覧)をユーザに対して出力してもよい。
【0033】
この場合、端末200上には、例えば、
図5に示す画面が表示される。
図5に示すように、
図4の画面に文章の要約が追加される。ユーザは、この画面上で、全文の中から要約動画に追加したい時間区間の文を指定することができる。また、要約動画から削除したい時間区間の文を指定することもできる。
【0034】
上記の文追加の指定がなされた場合、動画要約装置100において、要約の結果として得られた複数の文にユーザから指定された文を追加して得られた複数の文から要約動画を生成することができる。また、上記の文削除の指定がなされた場合、動画要約装置100において、要約の結果として得られた複数の文から、ユーザにより指定された文を削除して得られた複数の文から要約動画を生成することができる。
【0035】
S112において、動画区間抽出部140は、S111において抽出されたそれぞれの文について、対応する時間区間の情報を取得する。
【0036】
例えば、上記の例でいえば、文1に対して(開始時刻:0分0秒,終了時刻:1分0秒)が取得され、文20に対して、例えば、(開始時刻:20分30秒,終了時刻:21分30秒)が取得される。他の文についても同様である。
【0037】
S113において、動画区間抽出部140は、S112において取得したそれぞれの時間区間について、時間区間に対応する動画区間(時間区間の時間位置に対応する動画であり、部分動画と呼んでもよい)を、全体の動画から抽出する。
【0038】
例えば、上記の例を用いると、全体が60分の動画から、文1に対応する時間区間(開始時刻:0分0秒,終了時刻:1分0秒)の動画1が抽出され、文20に対応する時間区間(開始時刻:20分30秒,終了時刻:21分30秒)の動画20が抽出される。他の時間区間についても同様である。
【0039】
動画抽出のイメージを
図6に示す。
図6に示すように、各抽出文の時間区間に対応する区間の動画を抽出する。
【0040】
図3のS114において、要約動画生成部150は、S113において抽出した動画を結合することにより、要約動画を生成する。例えば、S113において、動画1、動画20、動画21、動画53、動画54、動画60が抽出されたとすると、これらを結合した「動画1+動画20+動画21+動画53+動画54+動画60」が要約動画として生成される。
【0041】
S115において、要約動画生成部150は、生成した要約動画を端末200に送信する。S116において、端末200上に要約動画が表示され、ユーザは要約動画を視聴する。
【0042】
(その他の例)
図3に示したシーケンスは一例であり、
図3に示したシーケンスとは異なる手順で処理を行ってもよい。例えば、S107~S110の処理を行わないこととしてもよい。この場合、予め定めた要約率を使用してもよいし、S101、S102において要約の時間長等を端末200から動画要約装置100に指定してもよい。
【0043】
また、
図1に示した構成も一例であり、この構成に限定されるわけではない。例えば、端末200内に動画要約装置100の機能を含めてもよい。この場合、端末200は、自端末内で、元の動画から要約動画を生成し、表示することができる。なお、動画要約装置100の機能を含む端末を「動画要約装置」と呼んでもよい。端末200内に動画要約装置100の機能を含める場合、
図3における端末200への情報送信は、端末200のディスプレイに情報を表示することに相当する。
【0044】
また、これまでに説明した例では、動画に含まれる音声から音声認識によりテキストを取得し、当該テキストを用いて要約動画を生成することとしているが、字幕等のテキストが含まれる動画に関しては、音声認識を用いることなく、当該テキストを用いて要約動画を生成することとしてもよい。
【0045】
この場合、例えば、動画のデータ(動画ファイル)には、動画とテキストが含まれる。動画とテキストはタイムスタンプ等により同期しているが、分離しており、動画を解析することなくテキストを取得可能である。
【0046】
例えば、音声テキスト化処理部120が、上記テキストから、複数の文からなる文章を生成する。この文章は、文の一覧の形式で生成され、各文には、その文に対応する動画における時間区間の情報が付されている。この処理以降の処理は、これまでに説明した処理と同様である。動画に含まれるテキストを使用する場合でも、動画抽出のイメージは
図6に示したものと同じである。
【0047】
(ハードウェア構成例)
動画要約装置100、端末200はいずれも、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。当該コンピュータは物理マシンであってもよいし、クラウド上の仮想マシンであってもよい。動画要約装置100、端末200を総称して「装置」と呼ぶ。
【0048】
すなわち、当該装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
【0049】
図7は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。
図7のコンピュータは、それぞれバスBで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、及び出力装置1008等を有する。
【0050】
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0051】
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。
【0052】
インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
【0053】
(実施の形態の効果)
本実施の形態に係る技術によれば、動画に含まれる音声又はテキストを利用して動画要約を行うことができるので、動画の特徴を事前に定義することが不要であり、汎用性の高い動画要約技術を実現することができる。また、より具体的な効果として下記の効果がある。
【0054】
5Gの本格化に伴い動画コンテンツの需要は高まっている。かつコロナ禍によるセミナーや研修など各種イベントがほぼ全てオンライン開催となり、その模様を動画として記録することが激増している。そのような状況において、本実施の形態に係る技術により、要約動画を自動的に生成でき、生成した要約動画を、隙間時間にスマホやタブレット等で手軽に視聴することができる。また、セミナーや講演会の記録動画や研修の教材動画の視聴を促すプロモーションとしても非常に有効であり、本技術は世の中で非常に渇望されている。
【0055】
(実施の形態のまとめ)
本明細書には、少なくとも下記各項の動画要約装置、動画要約方法、及びプログラムが開示されている。
(第1項)
動画の要約を作成する動画要約装置であって、
前記動画に含まれる音声に対して音声認識を行うことにより、テキストを取得する音声テキスト化部と、
前記テキストから得られた文章を複数の文に要約する文章要約部と、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成部と
を備える動画要約装置。
(第2項)
動画の要約を作成する動画要約装置であって、
前記動画に含まれるテキストから得られた文章を複数の文に要約する文章要約部と、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成部と
を備える動画要約装置。
(第3項)
前記文章要約部は、ユーザから指定された時間長、ユーザから指定された文の数、ユーザから指定された要約率、又は、予め定めた要約率に基づいて、前記要約を実行する
第1項又は第2項に記載の動画要約装置。
(第4項)
前記文章要約部は、前記文章の要約結果である前記複数の文をユーザに対して出力し、
前記要約動画生成部は、ユーザから指定された文を前記複数の文に追加する追加処理、又は、ユーザから指定された文を前記複数の文から削除する削除処理を実行し、前記追加処理又は前記削除処理がなされた複数の文から要約動画を生成する
第1項ないし第3項のうちいずれか1項に記載の動画要約装置。
(第5項)
動画の要約を作成する動画要約装置が実行する動画要約方法であって、
前記動画に含まれる音声に対して音声認識を行うことにより、テキストを取得する音声テキスト化ステップと、
前記テキストから得られた文章を複数の文に要約する文章要約ステップと、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成ステップと
を備える動画要約方法。
(第6項)
動画の要約を作成する動画要約装置が実行する動画要約方法であって、
前記動画に含まれるテキストから得られた文章を複数の文に要約する文章要約ステップと、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成ステップと
を備える動画要約方法。
(第7項)
コンピュータを、第1項ないし第4項のうちいずれか1項に記載の動画要約装置における各部として機能させるためのプログラム。
【0056】
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0057】
100 動画要約装置
110 動画データ取得部
120 音声テキスト化処理部
130 文章要約部
140 動画区間抽出部
150 要約動画生成部
160 データ記憶部
1000 ドライブ装置
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置