(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6688368
(24)【登録日】2020年4月7日
(45)【発行日】2020年4月28日
(54)【発明の名称】映像コンテンツ構造化装置、映像コンテンツ構造化方法、及びコンピュータプログラム
(51)【国際特許分類】
H04N 21/845 20110101AFI20200421BHJP
H04N 21/854 20110101ALI20200421BHJP
G10L 15/28 20130101ALI20200421BHJP
【FI】
H04N21/845
H04N21/854
G10L15/28 500
【請求項の数】7
【全頁数】12
(21)【出願番号】特願2018-212765(P2018-212765)
(22)【出願日】2018年11月13日
【審査請求日】2018年11月13日
(73)【特許権者】
【識別番号】399041158
【氏名又は名称】西日本電信電話株式会社
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100101247
【弁理士】
【氏名又は名称】高橋 俊一
(74)【代理人】
【識別番号】100095500
【弁理士】
【氏名又は名称】伊藤 正和
(74)【代理人】
【識別番号】100098327
【弁理士】
【氏名又は名称】高松 俊雄
(72)【発明者】
【氏名】川嶋 喜美子
(72)【発明者】
【氏名】安永 健治
【審査官】
川中 龍太
(56)【参考文献】
【文献】
特開2004−233541(JP,A)
【文献】
特開2009−171624(JP,A)
【文献】
特開2017−045111(JP,A)
【文献】
特開2007−140198(JP,A)
【文献】
米国特許出願公開第2010/0094875(US,A1)
【文献】
宮森 恒 Hisashi MIYAMORI,ウェブ化ビデオ:テレビ番組からウェブコンテンツへのメディア変換および関連情報との統合的閲覧方式 Webified video: media conversion from TV program to web content and their viewing method integrated with related information,DEWS2005論文集 [online] Proceedings of Data Engineering Workshop,日本,(社)電子情報通信学会データ工学研究専門委員会
【文献】
伊藤 学 Manabu Ito,画像処理 Image Processing,映像情報メディア学会誌 第57巻 第7号 THE JOURNAL OF THE INSTITUTE OF IMAGE INFORMATION AND TELEVISION ENGINEERS,日本,(社)映像情報メディア学会 THE INSTITUTE OF IMAGE INFORMATION AND TELEVISION ENGINEERS,2003年 7月 1日,第57巻,pp.812-815
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 − 21/858
H04N 5/76 − 5/956
G10L 15/28
(57)【特許請求の範囲】
【請求項1】
映像コンテンツをブロック毎に分割するブロック分割部と、
分割されたブロック毎にメタデータを付与するメタデータ付与部と、
付与されたメタデータに基づいて階層的に映像コンテンツを構造化する構造化部と
を備え、
前記メタデータ付与部は、音声認識結果、文字認識結果、画像認識結果のうちの少なくとも1つに基づいてメタデータを導出し、導出したメタデータに対して重みづけを行い、重みづけされたメタデータをブロック毎に統合すること
を特徴とする映像コンテンツ構造化装置。
【請求項2】
前記メタデータ付与部は、音声認識結果と文字認識結果の両方で導出されたキーワードの重みを大きくすることを特徴とする請求項1に記載の映像コンテンツ構造化装置。
【請求項3】
前記メタデータ付与部は、出現している時間が長いキーワード及びオブジェクトほど重みを大きくする、または、出現している回数が多いキーワード及びオブジェクトほど重みを大きくすることを特徴とする請求項1に記載の映像コンテンツ構造化装置。
【請求項4】
前記構造化部は、代表ベクトルの単語に対する重みを小さくすることを特徴とする請求項1から3のいずれか1項に記載の映像コンテンツ構造化装置。
【請求項5】
前記構造化部は、階層が深くなるほど、オブジェクトに対する重みを大きくし、キーワードに対する重みを小さくすることを特徴とする請求項1から3のいずれか1項に記載の映像コンテンツ構造化装置。
【請求項6】
コンピュータが、
映像コンテンツをブロック毎に分割するブロック分割ステップと、
分割されたブロック毎にメタデータを付与するメタデータ付与ステップと、
付与されたメタデータに基づいて階層的に映像コンテンツを構造化する構造化ステップとを実行し、
前記メタデータ付与ステップは、音声認識結果、文字認識結果、画像認識結果のうちの少なくとも1つに基づいてメタデータを導出し、導出したメタデータに対して重みづけを行い、重みづけされたメタデータをブロック毎に統合すること
を特徴とする映像コンテンツ構造化方法。
【請求項7】
請求項1から5のいずれか1項に記載した映像コンテンツ構造化装置としてコンピュータを機能させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像コンテンツを構造化する映像コンテンツ構造化装置、映像コンテンツ構造化方法、及びコンピュータプログラムに関する。
【背景技術】
【0002】
近年、放送局などにおいては、番組制作環境のファイルベース化が進み、映像コンテンツの効率良い管理がますます重要になってきている。映像編集者が膨大な映像コンテンツの中から、特定のキーワードが含まれるコンテンツを検索し、さらに、そのコンテンツの中から、番組制作に使える映像シーンを探し出すには多大な稼働がかかる。そこで、映像コンテンツの検索を容易にするため、映像コンテンツにメタデータを付与する技術が提案されている(非特許文献1)。しかし、メタデータを人手で付与するには時間がかかるため、自動で付与する技術が研究されている(非特許文献2)。また、映像編集作業を効率化するため、音声/映像信号に基づいて、映像コンテンツをシーンに分割する技術も提案されている(非特許文献3)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】「メタデータ制作支援に関する動向」、2018年10月17日検索、インターネット<URL:https://www.nhk.or.jp/strl/publica/rd/rd163/pdf/P04-21.pdf>
【非特許文献2】「コンテンツのメタデータ付与について」、2018年10月17日検索、インターネット<URL:http://www.soumu.go.jp/main_content/000225131.pdf>
【非特許文献3】「viaPlatz」、2018年10月17日検索、インターネット<URL:http://www.viaplatz.com/spec/>
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、従来技術によれば、内容が連続していても、シーンが分割されてしまう。たとえば、テロップが同じで、内容が連続していても、背景映像が変わると分割されてしまう。具体的には、ロケ番組で、「大阪」のようなテロップが出ていて、その背景映像が数秒おきに切り替わる場合などである。同一人物の話が連続していても、正面からの撮影、横からの撮影というようにカメラカットが変わると分割されてしまう。
【0005】
また、従来技術によれば、一意に分割されてしまうため、確認したいシーンの粒度は映像編集者によって異なることに対応できない。たとえば、
図8(a)に示すように、映像コンテンツを複数のブロックB1,B2,B3,B4,B5,…に区切り、
図8(b)に示すように、そのメタデータを管理しているものとする。ここで、「食べ物に関するロケシーン(ブロックB1−B3)」が「店の外のシーン(ブロックB1)」と「店の中のシーン(ブロックB2−B3)」で構成されている場合、「店の外のシーン、店の中のシーンをまとめて作業をしたい人(ブロックB1−B3をまとめて1つのシーンとしたい人)」、「店の中のシーンだけを確認したい人(ブロックB2−B3をまとめて1つのシーンとしたい人)」というように、確認したいシーンの粒度は異なる。また、「コーナーの切り替わり(ブロックB4とブロックB5)」で、スタジオキャスターが「前のコーナーのまとめ(ブロックB4)」と「次のコーナーへのつなぎ(ブロックB5)」を連続して話す場合、「キャスターのシーンとしてまとめて作業したい人(ブロックB4−B5をまとめて1つのシーンとしたい人)」、「前のコーナーのまとめのシーン、次のコーナーへのつなぎのシーンを分けて確認したい人(ブロックB4、B5をそれぞれのシーンとしたい人)」というように、確認したいシーンの粒度は異なる。
【0006】
本発明は、上述した従来技術に鑑み、内容を考慮して階層的に映像コンテンツを構造化することが可能な映像コンテンツ構造化装置、映像コンテンツ構造化方法、及びコンピュータプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するため、第1の態様に係る発明は、映像コンテンツ構造化装置であって、映像コンテンツをブロック毎に分割するブロック分割部と、分割されたブロック毎にメタデータを付与するメタデータ付与部と、付与されたメタデータに基づいて階層的に映像コンテンツを構造化する構造化部とを備えることを要旨とする。
【0008】
第2の態様に係る発明は、第1の態様に係る発明において、前記メタデータ付与部が、音声認識結果、文字認識結果、画像認識結果のうちの少なくとも1つに基づいてメタデータを導出し、導出したメタデータに対して重みづけを行い、重みづけされたメタデータをブロック毎に統合することを要旨とする。
【0009】
第3の態様に係る発明は、第2の態様に係る発明において、前記メタデータ付与部が、音声認識結果と文字認識結果の両方で導出されたキーワードの重みを大きくすることを要旨とする。
【0010】
第4の態様に係る発明は、第2の態様に係る発明において、前記メタデータ付与部が、出現している時間が長いキーワード及びオブジェクトほど重みを大きくする、または、出現している回数が多いキーワード及びオブジェクトほど重みを大きくすることを要旨とする。
【0011】
第5の態様に係る発明は、第2から第4のいずれか1つの態様に係る発明において、前記構造化部が、代表ベクトルの単語に対する重みを小さくすることを要旨とする。
【0012】
第6の態様に係る発明は、第2から第4のいずれか1つの態様に係る発明において、前記構造化部が、階層が深くなるほど、オブジェクトに対する重みを大きし、キーワードに対する重みを小さくすることを要旨とする。
【0013】
第7の態様に係る発明は、映像コンテンツ構造化方法であって、コンピュータが、映像コンテンツをブロック毎に分割するブロック分割ステップと、分割されたブロック毎にメタデータを付与するメタデータ付与ステップと、付与されたメタデータに基づいて階層的に映像コンテンツを構造化する構造化ステップとを実行することを要旨とする。
【0014】
第8の態様に係る発明は、コンピュータプログラムであって、第1から第6のいずれか1つの態様に係る映像コンテンツ構造化装置としてコンピュータを機能させるためのものであることを要旨とする。
【発明の効果】
【0015】
本発明によれば、内容を考慮して階層的に映像コンテンツを構造化することが可能な映像コンテンツ構造化装置、映像コンテンツ構造化方法、及びコンピュータプログラムを提供することが可能である。
【図面の簡単な説明】
【0016】
【
図1】本発明の実施形態における映像コンテンツ構造化装置の構成図である。
【
図2】本発明の実施形態におけるメタデータ付与部の構成図である。
【
図3】本発明の実施形態におけるキーワード導出部の動作を示すフローチャートである。
【
図4】本発明の実施形態におけるオブジェクト導出部の動作を示すフローチャートである。
【
図5】本発明の実施形態における構造化部の動作を示すフローチャートである。
【
図6】本発明の実施形態における重み更新関数と階層数の関係を示すグラフである。
【
図7】本発明の実施形態における構造化部による構造化結果の一例を示す図である。
【発明を実施するための形態】
【0017】
以下、図面を用いて本発明の実施の形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号を付している。
【0018】
≪全体構成≫
図1は、本発明の実施形態における映像コンテンツ構造化装置1の構成図である。この映像コンテンツ構造化装置1は、映像コンテンツを構造化するコンピュータであって、機能的には、ブロック分割部10と、メタデータ付与部20と、構造化部30とを備える。
【0019】
ブロック分割部10は、映像コンテンツをブロック毎に分割する。映像コンテンツを細かく分割する技術としては従来技術を用いることができる。たとえば、viaPlatzや、オープンソース等を用いることが考えられる。ブロック分割部10には映像コンテンツが入力され、ブロック分割部10からはブロック分割結果が出力される。
【0020】
メタデータ付与部20は、ブロック分割部10により分割されたブロック毎にメタデータ(キーワード+オブジェクト)を付与する。メタデータは、映像コンテンツについて記述した情報である。メタデータは、映像コンテンツに埋め込む形で存在するものもあるが、ここでは、映像コンテンツとは別に管理されているものとする。メタデータ付与部20にはブロック分割結果が入力され、メタデータ付与部20からはブロック毎のメタデータが出力される。
【0021】
構造化部30は、メタデータ付与部20により付与されたメタデータ(キーワード+オブジェクト)に基づいて階層的に映像コンテンツを構造化する。構造化部30にはブロック毎のメタデータと階層数が入力され、構造化部30からは映像の構造化結果が出力される。階層数は、階層化したい数であり、映像編集者などのユーザにより指定される。
【0022】
以上のように、本発明の実施形態における映像コンテンツ構造化装置1によれば、ブロック毎のメタデータを抽出することができるため、ブロック毎のメタデータ(内容)を考慮して階層的に映像コンテンツを構造化することが可能となる。その結果、内容が連続している区間を統合することが可能となり、また、確認したいシーンの粒度を映像編集者によって変えることも可能となる。
【0023】
≪メタデータ付与部≫
図2は、メタデータ付与部20の構成図である。この図に示すように、メタデータ付与部20は、各種認識部21と、メタデータ統合部22とを備える。
【0024】
各種認識部21は、ブロック分割結果に基づいて各種の認識処理を行う機能部であり、音声認識部21Aと、文字認識部21Bと、画像認識部21Cとを備える。音声認識部21Aは、ブロック分割結果に含まれる音声を認識する。文字認識部21Bは、ブロック分割結果に含まれる文字を認識する。画像認識部21Cは、ブロック分割結果に含まれる画像を認識する。このような各種認識部21には、NTT、Google、Azure、Watson等の外部APIを用いることが考えられる。
【0025】
メタデータ統合部22は、各種認識部21による各種認識結果に基づいてブロック毎のメタデータを導出し、導出したメタデータに対して重みづけを行い、重みづけされたメタデータをブロック毎に統合する機能部であり、キーワード導出部22Aと、オブジェクト導出部22Bとを備える。キーワード導出部22Aは、音声認識部21Aによる音声認識結果(キーワード)と文字認識部21Bによる文字認識結果(キーワード)とに基づいて、各キーワードの重みづけを行う。オブジェクト導出部22Bは、画像認識部21Cの画像認識結果(オブジェクト)に基づいて、各オブジェクトの重みづけを行う。
【0026】
≪キーワード導出部≫
図3は、キーワード導出部22Aの動作を示すフローチャートである。以下、
図3を用いて、キーワード導出部22Aの機能をその動作とともに説明する。
【0027】
まず、キーワード導出部22Aは、音声認識部21Aによる音声認識結果に基づいてキーワードを導出するとともに、文字認識部21Bによる文字認識結果に基づいてキーワードを導出する(ステップS1,S2)。たとえば、NTT corevo キーワード抽出APIや、yahooキーフレーズ抽出API等の外部APIを用いてキーワードを導出することが考えられる。
【0028】
次いで、キーワード導出部22Aは、キーワード導出ステップS1,S2で導出された各キーワードに対する重み(a_key)を導出し、各キーワードに対して重みづけを行う(ステップS3)。このとき、キーワード導出ステップS1,S2の両方で導出されたキーワードの重みを大きくすることが考えられる。また、キーワード導出ステップS1,S2の結果を統合し、各キーワードに対し、出現していた時間に基づいて、最も出現時間が長いキーワードの重みを1、最も出現時間が短いキーワードの重みを0.1として、0.1から1の間で規格化することが考えられる。同様に、キーワード導出ステップS1,S2の結果を統合し、各キーワードに対し、出現していた回数に基づいて、最も出現回数が多いキーワードの重みを1、最も出現回数が少ないキーワードの重みを0.1として、0.1から1の間で規格化することが考えられる。
【0029】
最後に、キーワード導出部22Aは、キーワード重みづけステップS3で重みづけされた各キーワードを出力する(ステップS4)。
【0030】
≪オブジェクト導出部≫
図4は、オブジェクト導出部22Bの動作を示すフローチャートである。以下、
図4を用いて、オブジェクト導出部22Bの機能をその動作とともに説明する。
【0031】
まず、オブジェクト導出部22Bは、画像認識部21Cによる画像認識結果に基づいてオブジェクトを導出する(ステップS11)。
【0032】
次いで、オブジェクト導出部22Bは、オブジェクト導出ステップS11で導出された各オブジェクトに対する重み(a_obj)を導出し、各オブジェクトに対して重みづけを行う(ステップS12)。このとき、各オブジェクトに対し、出現していた時間に基づいて、最も出現時間が長いオブジェクトの重みを1、最も出現時間が短いオブジェクトの重みを0.1として、0.1から1の間で規格化することが考えられる。同様に、各オブジェクトに対し、出現していた回数に基づいて、最も出現回数が多いオブジェクトの重みを1、最も出現回数が少ないオブジェクトの重みを0.1として、0.1から1の間で規格化することが考えられる。
【0033】
最後に、オブジェクト導出部22Bは、オブジェクト重みづけステップS12で重みづけされた各オブジェクトを出力する(ステップS13)。
【0034】
≪構造化部≫
図5は、構造化部30の動作を示すフローチャートである。以下、
図5を用いて、構造化部30の機能をその動作とともに説明する。
【0035】
まず、構造化部30は、階層数Rが入力されると、rankに1を設定する(ステップS21→S22)。階層数Rは、ユーザにより指定される。rankは、階層数を表す変数である。
【0036】
次いで、構造化部30は、メタデータ付与部20からのメタデータ(キーワード+オブジェクト)に基づいてクラスタリングする(ステップS23)。クラスタリングとは、大量のデータから、似ているものを集めて自動的に分類していく技術や手法である。
【0037】
このクラスタリングステップS23には、ブロック毎のメタデータベクトル化ステップと、ブロックのクラスタリングステップとが含まれる。ブロック毎のメタデータベクトル化ステップでは、ブロック毎に、キーワード(key)と各キーワードに対する重み(a_key)、オブジェクト(obj)と各オブジェクトに対する重み(a_obj)を入力とし、word2vec等のベクトル化ツールを用い、ブロック毎の意味ベクトル(S(b))を導出する(bはブロック番号)。ブロックのクラスタリングステップでは、ブロック毎の意味ベクトル(S(b))を入力とし、k-means法等のクラスタリングツールを用い、クラスタリングする。
【0038】
次いで、構造化部30は、代表メタデータを導出する(ステップS24)。この代表メタデータ導出ステップS24では、各クラスタを構成するブロック群の「ブロック毎の意味ベクトル(S(b))」の平均値S(b,c)を導出し(cはクラスタ番号)、各ブロックの代表ベクトルとする。また、word2vec等のベクトル化ツールを用いて、各ブロックの代表ベクトルS(b,c)を単語(W)に変換する。
【0039】
次いで、構造化部30は、階層に分けて構造化するため、重みを更新する(ステップS25)。この重み更新ステップS25では、クラスタ毎に次の処理をすることが考えられる。
【0040】
まず、代表ベクトルの単語Wに対する重み(a_W)を小さくすることが考えられる。たとえば、すでに代表ベクトルとして抽出されたメタデータの影響を除くために、a_W=0とする。
【0041】
また、オブジェクトは細かく分割するのに役立つため、階層数が増えるにつれて、オブジェクトに対する重み(a_obj)の値を大きくし、キーワードに対する重み(a_key)の値を小さくすることも考えられる。たとえば、以下のように更新する。
【0042】
a_obj(rank+1)=α×a_obj(rank)
a_key(rank+1)=(2-α)×a_key(rank)
α=β×exp(rank+γ)
重み更新関数αと階層数rankの関係は、
図6に示すように、rankが増えるほど(階層が深くなるほど)、オブジェクトに対する重み(a_obj)の値が大きくなるように定式化する。ここでは、指数関数で定式化しているが、他の数式も考えられる。
【0043】
次いで、構造化部30は、rankの値に1を加算し、rankの値が階層数Rに達するまで同様の処理を繰り返す(ステップS26→S27→S23→・・・)。そして、rankの値が階層数Rに達すると、単語(W)を構成化結果とあわせて出力する(ステップS27→S28)。
【0044】
≪構造化結果例≫
図7は、構造化部30による構造化結果の一例を示す図である。ここでは、ユーザに表示するUIイメージを例示している。たとえば、ユーザにより階層数3が指定された場合は、階層1,2,3における各区間の代表メタデータを表示するようになっている。
【0045】
具体的には、あるロケ番組が「京都の話をしているシーン」「大阪の話をしているシーン」「神戸の話をしているシーン」で構成されているものとする。また、「京都の話をしているシーン」は、「スタジオで話をしているシーン」「寺のシーン」「お茶屋のシーン」で構成されているものとする。このような場合、階層1における区間M11の代表メタデータとして「京都」を表示してもよい。また、階層2における区間M21,M22,M23の代表メタデータとして「スタジオ」「寺」「お茶屋」を表示してもよい。さらに、階層3における区間M31,M32,M33,M34,M35の代表メタデータとして「寺の中のシーン」「寺の外のシーン」などを表示してもよい。
【0046】
以上のように、本発明の実施形態における映像コンテンツ構造化装置1によれば、従来技術の分割を基に構造化することで、従来技術では細かく分割してしまっているところを統合して、階層1,2,3のように表示することが可能である。また、階層数はユーザが指定できるため、確認したいシーンの粒度を映像編集者によって変えることが可能である。
【0047】
≪変形例≫
上記実施形態では、ユーザにより階層数Rが指定されることとしているが、階層数Rの指定は必ずしも必要でない。たとえば、階層を10段階まで構造化できる場合は、一律に階層1から階層10までの全部を構造化結果として出力することも考えられる。
【0048】
≪他の応用例≫
上記実施形態では、映像編集者が映像シーンを検索する際を想定して記載しているが、一般ユーザが自分の好みの芸能人が出ているシーンだけを検索する等、一般ユーザが利用することも考えられる。たとえば、歌番組に好みの芸能人が出ている場合、従来技術では、オープニングや歌っている箇所、クロージングなど該当の芸能人が登場する箇所に飛び飛びでメタデータが付与されるが、本発明を用いて構造化することで、その芸能人が歌っている箇所だけを見つけやすくすることができる。
【0049】
≪まとめ≫
以上説明したように、本発明の実施形態における映像コンテンツ構造化装置1は、映像コンテンツをブロック毎に分割するブロック分割部10と、分割されたブロック毎にメタデータを付与するメタデータ付与部20と、付与されたメタデータに基づいて階層的に映像コンテンツを構造化する構造化部30とを備える。これにより、ブロック毎のメタデータを抽出することができるため、ブロック毎のメタデータ(内容)を考慮して階層的に映像コンテンツを構造化することが可能となる。
【0050】
また、メタデータ付与部20は、音声認識結果、文字認識結果、画像認識結果のうちの少なくとも1つに基づいてメタデータを導出し、導出したメタデータに対して重みづけを行い、重みづけされたメタデータをブロック毎に統合してもよい。これにより、映像や音声に含まれる特徴を捉えることができるため、ブロック毎の代表的な特徴を抽出することが可能となる。
【0051】
また、メタデータ付与部20は、音声認識結果と文字認識結果の両方で導出されたキーワードの重みを大きくしてもよい。これにより、音声と映像(テロップ)の両方で導出されたキーワードは、そのブロックの特徴を強く表していることを考慮することができる。
【0052】
また、メタデータ付与部20は、出現している時間が長いキーワード及びオブジェクトほど重みを大きくする、または、出現している回数が多いキーワード及びオブジェクトほど重みを大きくしてもよい。これにより、出現している時間が長いキーワード及びオブジェクトほど、そのブロックの特徴を強く表していることを考慮することができる。また、出現している回数が多いキーワード及びオブジェクトほど、そのブロックの特徴を強く表していることを考慮することができる。
【0053】
また、構造化部30は、代表ベクトルの単語に対する重みを小さくしてもよい。これにより、すでに代表ベクトルになったものが以降も導出される不具合を回避することが可能となる。
【0054】
また、構造化部30は、階層が深くなるほど、オブジェクトに対する重みを大きくし、キーワードに対する重みを小さくしてもよい。これにより、階層が深くなるほど、オブジェクトの方がキーワードよりも代表メタデータとして導出されやすくなる。
【0055】
なお、本発明は、映像コンテンツ構造化装置1として実現することができるだけでなく、映像コンテンツ構造化装置1が備える特徴的な機能部をステップとする映像コンテンツ構造化方法として実現したり、映像コンテンツ構造化装置1としてコンピュータを機能させるためのコンピュータプログラムとして実現したりすることもできる。そして、このようなコンピュータプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのはいうまでもない。
【0056】
≪その他の実施形態≫
上記のように、本発明の実施形態について記載したが、開示の一部をなす論述および図面は例示的なものであり、限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例および運用技術が明らかとなろう。すなわち、本発明の実施形態は、ここでは記載していない様々な実施形態などを含む。
【符号の説明】
【0057】
1 映像コンテンツ構造化装置
10 ブロック分割部
20 メタデータ付与部
21 各種認識部
21A 音声認識部
21B 文字認識部
21C 画像認識部
22 メタデータ統合部
22A キーワード導出部
22B オブジェクト導出部
30 構造化部
【要約】
【課題】内容を考慮して階層的に映像コンテンツを構造化することが可能な映像コンテンツ構造化装置、映像コンテンツ構造化方法、及びコンピュータプログラムを提供する。
【解決手段】映像コンテンツ構造化装置1は、映像コンテンツをブロック毎に分割するブロック分割部10と、分割されたブロック毎にメタデータを付与するメタデータ付与部20と、付与されたメタデータに基づいて階層的に映像コンテンツを構造化する構造化部30とを備える。
【選択図】
図1