IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ JCC株式会社の特許一覧

特開2022-88788メタデータ生成システム、映像コンテンツ管理システム及びプログラム
<>
  • 特開-メタデータ生成システム、映像コンテンツ管理システム及びプログラム 図1
  • 特開-メタデータ生成システム、映像コンテンツ管理システム及びプログラム 図2
  • 特開-メタデータ生成システム、映像コンテンツ管理システム及びプログラム 図3
  • 特開-メタデータ生成システム、映像コンテンツ管理システム及びプログラム 図4
  • 特開-メタデータ生成システム、映像コンテンツ管理システム及びプログラム 図5
  • 特開-メタデータ生成システム、映像コンテンツ管理システム及びプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022088788
(43)【公開日】2022-06-15
(54)【発明の名称】メタデータ生成システム、映像コンテンツ管理システム及びプログラム
(51)【国際特許分類】
   H04N 21/84 20110101AFI20220608BHJP
   H04N 21/232 20110101ALI20220608BHJP
   H04N 5/765 20060101ALI20220608BHJP
   H04N 5/91 20060101ALI20220608BHJP
   H04N 5/92 20060101ALI20220608BHJP
【FI】
H04N21/84
H04N21/232
H04N5/765
H04N5/91
H04N5/92 010
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2020200817
(22)【出願日】2020-12-03
(71)【出願人】
【識別番号】305020745
【氏名又は名称】JCC株式会社
(74)【代理人】
【識別番号】100089026
【弁理士】
【氏名又は名称】木村 高明
(72)【発明者】
【氏名】石井 孝利
【テーマコード(参考)】
5C053
5C164
【Fターム(参考)】
5C053FA14
5C053GB06
5C053GB12
5C053JA21
5C053LA11
5C053LA14
5C164FA24
5C164MA02S
5C164MA06S
5C164MA07S
5C164MB13P
5C164PA31
5C164PA44
5C164SB02S
5C164SB04S
5C164SB31P
5C164SC11S
5C164YA11
(57)【要約】
【課題】映像コンテンツ内の字幕画像に基づいてメタデータを自動生成するシステムを提供する。
【解決手段】テレビ放送などの映像コンテンツに重ねて表示される字幕画像を構成する文字を文字コードに変換する字幕構成文字認識部と、映像コンテンツに含まれる音声を認識する音声認識部と、字幕構成文字認識により変換した文字コード及び音声認識部により認識した音声に基づいてテキスト情報を生成するテキスト化部と、テキスト化部により生成されたテキスト情報に基づいて前記映像コンテンツのメタデータを作成するメタデータ生成部と、を有し、字幕構成文字認識部は、字幕画像を構成する文字を文字単位で画像認識し、その認識結果に基づいて、字幕画像を構成する各文字を文字コードに変換する。
【選択図】図1
【特許請求の範囲】
【請求項1】
テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムであって、
前記映像コンテンツに重ねて表示される字幕画像を構成する文字を文字コードに変換する字幕構成文字認識部と、
前記映像コンテンツに含まれる音声を認識する音声認識部と、
前記字幕構成文字認識部により変換した文字コード及び前記音声認識部により認識した音声に基づいてテキスト情報を生成するテキスト化部と、
前記テキスト化部により生成されたテキスト情報に基づいて前記映像コンテンツのメタデータを作成するメタデータ生成部と、を有し、
前記字幕画像は、前記映像コンテンツと共に提供される文字コードに基づいて表示される画像であり、
前記字幕構成文字認識部は、前記字幕画像を構成する各文字を一文字単位で画像認識し、その認識結果に基づいて、前記字幕画像を構成する各文字を文字コードに変換することを特徴とするメタデータ生成システム。
【請求項2】
前記映像コンテンツに画像として含まれる文字又は文字列を認識する文字認識部を有し、
前記文字認識部は、前記字幕構成文字認識部として機能し得る機能部であるとともに、前記文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習する文字認識専用機械学習部を有し、
前記音声認識部は、前記音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する音声認識専用機械学習部を有し、
前記テキスト化部は、前記文字認識部により認識した文字又は文字列、前記字幕構成文字認識部により変換した文字コード及び前記音声認識部により認識した音声に基づいてテキスト情報を生成することを特徴とする、請求項1記載のメタデータ生成システム。
【請求項3】
前記映像コンテンツに画像として含まれる前記文字又は文字列以外の映像構成要素としての物体を認識する物体認識部を更に有し、
前記物体認識部は、前記物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習する物体認識専用機械学習部を有し、
前記テキスト化部は、前記文字認識部により認識した文字又は文字列、前記音声認識部により認識した音声及び前記物体認識部により認識した物体に基づいてテキスト情報を生成することを特徴とする、請求項2記載のメタデータ生成システム。
【請求項4】
前記映像コンテンツは、ニュース番組であり、
前記文字又は文字列は、前記ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列であり、
前記音声は、前記ニュース番組内での人物の音声であり、
前記物体は、前記ニュース番組内で表示される前記文字又は文字列以外の映像構成要素であることを特徴とする、請求項3記載のメタデータ生成システム。
【請求項5】
前記文字認識専用機械学習部及び物体認識専用機械学習部は、前記映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて機械学習し、
前記音声認識専用機械学習部は、前記人物の音声に基づいて用意された学習用データを用いて機械学習することを特徴とする、請求項4記載のメタデータ生成システム。
【請求項6】
前記文字認識部、前記音声認識部及び物体認識部は、映像コンテンツを構成するフレーム単位で文字又は文字列、音声及び物体を認識することを特徴とする請求項2及び3記載のメタデータ生成システム。
【請求項7】
前記映像構成要素は背景映像を含み、前記背景映像は、風景、建築物、自然、商標、ロゴ、通行人、動物又は交通手段を含むことを特徴とする請求項3又は4記載のメタデータ生成システム。
【請求項8】
請求項1から7のいずれか一項に記載のメタデータ生成システムにより生成されたメタデータを用いて、大量の映像コンテンツを検索可能に管理する映像コンテンツ管理システムであって、
テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存する映像コンテンツ保存部と、
前記映像コンテンツ保存部に保存されている全ての映像コンテンツを前記メタデータと関連付けて管理する映像コンテンツ管理部と、
利用者の端末から視聴要求を受け付ける要求受付部と、を有し、
前記映像コンテンツ管理部は、前記要求受付部が受け付けた利用者からの視聴要求に応じた前記メタデータを特定し、当該メタデータを検索キーにして前記映像コンテンツ保存部に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを前記利用者の端末で視聴可能とする映像コンテンツ管理システム。
【請求項9】
請求項1から7のいずれか一項に記載のメタデータ生成システムをコンピュータを用いて実現するためのプログラム。
【請求項10】
請求項8に記載の映像コンテンツ管理システムをコンピュータを用いて実現するためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システム及びこれを備えた映像コンテンツ管理システム及びそのプログラムに関するものである。
【背景技術】
【0002】
テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムは公知である(特許文献1参照)。メタデータは、映像コンテンツの作成日時、放送日時、配信日時、作成者、タイトル、注釈、等を示すテキスト情報である。メタデータは、保存した大量の映像コンテンツを効率的に検索可能に管理するために重要な情報である。
【0003】
特許文献1のメタデータ生成システムは、映像コンテンツを構成する各映像に含まれる文字情報(文字または文字列)を認識し、それらをテキスト化することで、各映像コンテンツに関連するメタデータを自動生成する。さらに、特許文献1のメタデータ生成システムは、映像コンテンツに含まれる音声情報をテキスト化して、メタデータを自動生成する機能も有している。
【0004】
特許文献1のメタデータ生成システムによれば、テレビ放送またはインターネット配信により提供された映像コンテンツに含まれる文字情報及び音声情報からメタデータを効率良く作成することができる。これにより、保存した大量の映像コンテンツを高効率に検索可能に管理し得る映像コンテンツ管理システムの実現が可能となった。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2018-33048号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
テレビ放送やインターネット配信により提供される映像コンテンツの画面レイアウトは多種多様である。特にテレビ放送される番組の画面レイアウトは、視聴者に対し各放送局が独自性をアピールしようとして放送局毎に工夫が凝らされたものとなっている。また、テレビ放送される番組中の音声に関しても同様に、放送局ごとに工夫が凝らされている。
【0007】
たとえば、ニュース番組の放送画面には、キャスター、スタジオセット、背景などとともに、ヘッドラインやテロップなどの文字情報が表示されるが、文字情報の表示態様すなわち、文字の大きさやフォントの種類、画面内における表示位置はニュース番組ごとに、更には番組内のコーナーごとに異なる。また、各ニュース番組はオリジナルの楽曲や効果音などを持ち、キャスターの声に重ねてそのような楽曲や効果音を流す音響演出も多種多様に行われる。
【0008】
このような、映像コンテンツの画面レイアウトや音響演出の多種多様化は、日を追って増大する傾向にある。また、テレビ放送に限らず、インターネット配信により提供される映像コンテンツにおいても同様に、画面レイアウトや音響演出が多種多様化している。
【0009】
しかし、特許文献1のメタデータ生成システムは、画面レイアウトや音響演出の多種多様化を想定していない。このため、特許文献1のメタデータ生成システムでは、映像コンテンツに含まれる文字情報及び音声情報を正確に認識することが困難な状況になっている。文字情報及び音声情報の認識精度の低下は、生成されるメタデータの正確性の低下に直結するため、高性能なメタデータ生成システムを実現する上で克服しなければならない問題である。
【0010】
ところで、デジタルテレビ放送においては文字多重放送が行われている。文字多重放送はテレビ放送信号に文字コードによる文字情報を含めて放送するものである。近時においては、テレビ番組に登場する人物の発話内容にリアルタイムで追随して字幕を表示するリアルタイム字幕技術による字幕放送も実現されている。映像コンテンツと共に提供される字幕情報は、音声情報と共にメタデータを生成するための有効な情報源となり得る。しかし、特許文献1のメタデータ生成システムでは、文字多重放送を想定したものではなく、字幕情報をメタデータの生成に利用する構成にはなっていない。また、字幕情報をメタデータの生成に利用するためには、字幕情報の作成に創作的に関与した者の著作権を侵害することがないように配慮する必要がある。
【0011】
そこで、本発明が解決しようとする課題は、映像コンテンツに含まれる字幕情報に基づいて、当該字幕情報に係る著作権を侵害することなく、各映像コンテンツに関連するメタデータを自動生成することができるメタデータ生成システム、これを備えた映像コンテンツ管理システム及びこれらのシステムを実現するためのプログラムを提供することにある。
【課題を解決するための手段】
【0012】
上記課題を解決するために、請求項1記載の発明は、テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムであって、前記映像コンテンツに重ねて表示される字幕画像を構成する文字を文字コードに変換する字幕構成文字認識部と、前記映像コンテンツに含まれる音声を認識する音声認識部と、前記字幕構成文字認識部により変換した文字コード及び前記音声認識部により認識した音声に基づいてテキスト情報を生成するテキスト化部と、前記テキスト化部により生成されたテキスト情報に基づいて前記映像コンテンツのメタデータを作成するメタデータ生成部と、を有し、前記字幕画像は、前記映像コンテンツと共に提供される文字コードに基づいて表示される画像であり、前記字幕構成文字認識部は、前記字幕画像を構成する各文字を一文字単位で画像認識し、その認識結果に基づいて、前記字幕画像を構成する各文字を文字コードに変換することを特徴とする。
【0013】
上記のように構成された請求項1のメタデータ生成システムは、テレビ放送またはインターネット配信により提供された各映像コンテンツ内の字幕画像を構成する文字を文字コードに変換するとともに、各映像コンテンツに含まれる音声を認識し、変換した文字コード及び認識した音声に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを作成する。
【0014】
テレビ番組等の映像コンテンツと共に提供される字幕情報には番組制作者等に著作権が帰属している可能性があるが、字幕画像として表示された文字列を構成する各文字そのものには著作権は及ばない。請求項1のメタデータ生成システムは、字幕画像を構成する各文字を一文字単位で画像認識し、その認識結果に基づいて、字幕画像を構成する各文字を文字コードに変換する処理を経た上で、メタデータを作成するための素材となるテキスト情報を生成することにより、番組制作者等の著作権を侵害することなくメタデータを作成することを可能としている。
【0015】
請求項2記載の発明は、請求項1記載のメタデータ生成システムにおいて、前記映像コンテンツに画像として含まれる文字又は文字列を認識する文字認識部を有し、前記文字認識部は、前記字幕構成文字認識部として機能し得る機能部であるとともに、前記文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習する文字認識専用機械学習部を有し、前記音声認識部は、前記音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する音声認識専用機械学習部を有し、前記テキスト化部は、前記文字認識部により認識した文字又は文字列、前記字幕構成文字認識部により変換した文字コード及び前記音声認識部により認識した音声に基づいてテキスト情報を生成することを特徴とする。
【0016】
上記のように構成された請求項2のメタデータ生成システムは、テレビ放送またはインターネット配信により提供された各映像コンテンツに画像として含まれる文字又は文字列を認識するとともに各映像コンテンツに含まれる音声を認識し、字幕画像を構成する文字についてはこれを文字コードに変換し、変換した文字コード、認識した文字又は文字列及び音声に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを作成する。
【0017】
その際、文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習し、音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する。文字又は文字列の認識処理についての機械学習は、文字認識専用機械学習部により実行され、音声の認識処理についての機械学習は、音声認識専用機械学習部により実行されるので、文字情報、音声情報それぞれの認識処理についての機械学習が高効率に進行する。
【0018】
したがって、文字又は文字列の認識処理が繰り返されることにより、テレビ放送またはインターネット配信により提供された映像コンテンツに画像として含まれる文字又は文字列の認識精度が急速に向上していき、音声の認識処理が繰り返されることにより、テレビ放送またはインターネット配信により提供された映像コンテンツに含まれる音声の認識精度が急速に向上していく。
【0019】
また、請求項3記載の発明は、請求項2記載のメタデータ生成システムにおいて、前記映像コンテンツに画像として含まれる前記文字又は文字列以外の映像構成要素としての物体を認識する物体認識部を更に有し、前記物体認識部は、前記物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習する物体認識専用機械学習部を有し、
前記テキスト化部は、前記文字認識部により認識した文字又は文字列、前記音声認識部により認識した音声及び前記物体認識部により認識した物体に基づいてテキスト情報を生成することを特徴とする。
【0020】
上記のように構成された請求項3のメタデータ生成システムは、テレビ放送またはインターネット配信により提供された各映像コンテンツに画像として含まれる文字又は文字列を認識するとともに、各映像コンテンツに含まれる音声を認識し、認識した文字又は文字列及び音声に基づいてテキスト情報を生成し、更に、テレビ放送またはインターネット配信により提供された各映像コンテンツに画像として含まれる物体を認識する。そして、認識した文字又は文字列、音声及び前記文字又は文字列以外の映像構成要素としての物体に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成する。
【0021】
その際、文字又は文字列の認識処理についての機械学習及び音声の認識処理についての機械学習に加えて、物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習を実行する。物体の認識処理についての機械学習は、物体専用機械学習部により実行されるので、文字又は文字列の認識処理についての機械学習の高効率化及び音声の認識処理についての機械学習の高効率化に加えて、物体の認識処理についての機械学習も高効率化する。物体の認識処理が繰り返されることにより、テレビ放送またはインターネット配信により提供された映像コンテンツに画像として含まれる物体の認識精度が急速に向上していく。
【0022】
また、請求項4記載の発明は、請求項3記載のメタデータ生成システムにおいて、前記映像コンテンツは、ニュース番組であり、前記文字又は文字列は、前記ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列であり、前記音声は、前記ニュース番組内での人物の音声であり、前記物体は、前記ニュース番組内で表示される前記文字又は文字列以外の映像構成要素であることを特徴とする。
【0023】
上記のように構成された請求項4のメタデータ生成システムは、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列を認識する。また、各ニュース番組内での人物の音声を認識する。また、ニュース番組内で表示される人物又は映像構成要素を認識する。そして、認識した文字又は文字列、音声、及び、人物又は映像構成要素に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成する。
【0024】
請求項4のメタデータ生成システムにおいては、文字又は文字列の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度が向上する。音声の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内での人物の音声の認識精度が向上する。物体の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示される人物又は映像構成要素の認識精度が向上する。
【0025】
また、請求項5記載の発明は、請求項4記載のメタデータ生成システムにおいて、前記文字認識専用機械学習部及び物体認識専用機械学習部は、前記映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて機械学習し、前記音声認識専用機械学習部は、前記人物の音声に基づいて用意された学習用データを用いて機械学習することを特徴とする。
【0026】
上記のように構成された請求項5のメタデータ生成システムにおいては、映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて文字認識専用機械学習部及び物体認識専用機械学習部が機械学習を行うことにより、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度及び各ニュース番組内で表示される人物又は映像構成要素の認識精度が確実に向上する。また、人物の音声に基づいて用意された学習用データを用いて音声認識専用機械学習部が機械学習を行うことにより、テレビ放送またはインターネット配信により提供された各ニュース番組内での人物の音声の認識精度が確実に向上する。
【0027】
請求項6記載の発明にあっては、前記文字認識部、前記音声認識部及び物体認識部は、映像コンテンツを構成するフレーム単位で文字又は文字列、音声及び物体を認識することを特徴とする。
従来の、メタデータを利用した映像コンテンツ検索システムにあっては、テレビ等の全放送番組を、放送局コード及び秒を基準とするタイムコードを付して映像と対応させた状態で録画し、録画された放送番組情報からメタデータ化し、メタデータにより使用者が指定した映像情報を、映像に付された放送局コード及び秒単位のタイムコードを基に抽出するように構成されていた。
【0028】
このような従来のメタデータ利用の映像コンテンツ検索システムにあっては、タイムコードの基準となる秒基準、秒単位でのメタデータ化及び当該メタデータに基づく検索は可能であり、例えば、映像中の人間の音声、会話等は論理的な展開が一般的でもあることから、充分にメタデータ化することも可能であると共に、検索、分析することは可能である。
【0029】
しかしながら、いわゆる「シーンチェンジ」のように映像が瞬間的に変化する場合がある。即ち、あるシーンにおいて特定の対象を映していたところ、他の対象に突然に脈絡なく変化するような場合が存在する。例えば、ドラマの映像においても、ドラマ構成上、あるシーンから全く関係のないシーンへ唐突に変化する場合もある。
【0030】
このような急峻な「シーンチェンジ」等の場合には、秒単位の認識、分析技術では、シーンチェンジ、映像変化の経過について十分には対応できない。また、特に、「サブリミナル映像」等のように、特定のシーンが、人間が十分に認識できないような非常な短時間、フラッシュバックのようにインサートされているような場合もあり、このような場合の映像情報の分析に関しても、従来の秒単位での映像分析技術では充分には対応できない。
【0031】
しかしながら、映像コンテンツの情報分析の観点からは、このような突然のシーンチェンジ、映像対象の唐突な変更、又はサブリミナル映像等の、非常に短時間の映像変化の経過に関してもメタデータ化しておき、その後の検索、分析の場面に対応したい、という要請がある。また、例えば、災害等の映像を事後的に検証分析するような場合、災害原因の究明には、映像の秒単位の分析では充分な分析、研究が不可能な場合もある。
【0032】
ところで、映像フレームは一秒あたり30フレーム以上存在し、例えば、テレビ、ビデオのフレームレートは、30fpsであり、これらのフレームにより映像が構成されている。従って、映像を構成するフレーム単位で映像を抽出し、対応するメタデータを作成し、当該メタデータに基づき映像を検索、分析できるようになれば上記の事態を解決することが可能となる。
【0033】
そこで、請求項6記載の発明にあっては、映像コンテンツをフレーム単位で認識して、文字、文字列、音声及び文字及び文字列以外の映像コンテンツをメタデータ化し、これらのフレーム単位のメタデータに基づき映像コンテンツを検索、分析できるように構成されている。
【0034】
請求項7記載の発明にあっては、前記映像構成要素は背景映像を含み、前記背景映像は、風景、建築物、自然、商標、ロゴ、通行人、動物又は交通手段を含むことを特徴とする。
【0035】
また、請求項8記載の発明は、請求項1から7のいずれか一項に記載のメタデータ生成システムにより生成されたメタデータを用いて、大量の映像コンテンツを検索可能に管理する映像コンテンツ管理システムであって、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存する映像コンテンツ保存部と、前記映像コンテンツ保存部に保存されている全ての映像コンテンツを前記メタデータと関連付けて管理する映像コンテンツ管理部と、利用者の端末から視聴要求を受け付ける要求受付部と、を有し、前記映像コンテンツ管理部は、前記要求受付部が受け付けた利用者からの視聴要求に応じた前記メタデータを特定し、当該メタデータを検索キーにして前記映像コンテンツ保存部に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを前記利用者の端末で視聴可能とすることを特徴とする。
【0036】
上記のように構成された請求項8の映像コンテンツ管理システムは、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存するとともに、保存されている全ての映像コンテンツを、請求項1から6のいずれか一項に記載のメタデータ生成システムにより生成されたメタデータと関連付けて管理する。利用者の端末から視聴要求を受け付けた場合、その視聴要求に応じたメタデータを特定し、当該メタデータを検索キーにして、保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを利用者の端末で視聴可能とする。
【0037】
また、請求項9記載の発明は、請求項1から7のいずれか一項に記載のメタデータ生成システムをコンピュータを用いて実現するためのプログラムである。
【0038】
請求項9のプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、本発明のメタデータ生成システムを実現できる。
【0039】
また、請求項10記載の発明は、請求項8に記載の映像コンテンツ管理システムをコンピュータを用いて実現するためのプログラムである。
【0040】
請求項10のプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、本発明の映像コンテンツ管理システムを実現できる。
【発明の効果】
【0041】
請求項1のメタデータ生成システムによれば、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる字幕情報に基づいて、字幕情報に係る著作権が仮に存在するとしても、当該著作権を侵害することなく、各映像コンテンツに関連する正確なメタデータを自動生成することができる。
【0042】
請求項2のメタデータ生成システムによれば、文字又は文字列の認識精度及び音声の認識精度が、それぞれ独立した専用の機械学習により急速に向上していくので、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報や音声情報を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。
【0043】
請求項3のメタデータ生成システムによれば、文字又は文字列の認識精度及び音声の認識精度に加えて、物体の認識精度が、それ専用の機械学習により急速に向上していくので、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報、音声情報及び物体を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。
【0044】
請求項4のメタデータ生成システムによれば、各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度、各ニュース番組内での人物の音声の認識精度及び各ニュース番組内で表示される物体の認識精度が、それぞれ独立した専用の機械学習により向上するので、ヘッドライン又はテロップに含まれる文字又は文字列、人物の音声及び物体を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。
【0045】
請求項5のメタデータ生成システムによれば、映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いることにより、ヘッドライン又はテロップに含まれる文字又は文字列の認識及び物体の認識についての機械学習を高効率に進行させることができ、人物の音声に基づいて用意された学習用データを用いることにより、人物の音声の認識についての機械学習を高効率に進行させることができるので、ヘッドライン又はテロップに含まれる文字又は文字列、人物の音声及び物体を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。
【0046】
請求項6記載の発明にあっては、前記文字認識部、前記音声認識部及び物体認識部は、映像コンテンツを構成するフレーム単位で文字又は文字列、音声及び、物体を認識するように構成されていることから、映像コンテンツをフレーム単位で認識して、文字、文字列、音声及び文字及び文字列以外の映像コンテンツをメタデータ化し、これらのフレーム単位のメタデータに基づき映像コンテンツを検索、分析することできる。
その結果、放送映像に存在する、急峻な「シーンチェンジ」等の場合や、「サブリミナル映像」に関しても、映像の抽出、検索、分析が可能となり、また、災害等の映像を事後的に検証分析するような場合、災害原因の究明において、映像の秒単位の分析では充分な分析が不可能な場合であっても有効に対応することが可能となる。
【0047】
請求項7記載の発明にあっては、前記映像構成要素は背景映像を含み、前記背景映像は、風景、建築物、自然、商標、ロゴ、通行人、動物又は交通手段を含むことから、映像コンテンツとして画面に表示されるほぼ全ての映像構成要素に関してメタデータ化が可能となる。
【0048】
請求項8の発明によれば、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存するとともに、保存されている全ての映像コンテンツを、請求項1から6のいずれか一項に記載のメタデータ生成システムにより生成された正確なメタデータと関連付けて検索可能に管理することで、高性能な映像コンテンツ管理システムを実現することができる。
【0049】
請求項9の発明に係るプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報や音声情報を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することが可能なメタデータ生成システムを実現することができる。
【0050】
請求項10の発明に係るプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、本発明に係るメタデータ生成システムを備えた高性能な映像コンテンツ管理システムを実現することができる。
【図面の簡単な説明】
【0051】
図1】一実施形態の映像コンテンツ管理システムのブロック図である。
図2図1の映像コンテンツ管理システムの一連の処理内容を示すフローチャートである。
図3図1の映像コンテンツ管理システムを構成する一実施形態のメタデータ生成システムの一連の処理内容を示すフローチャートである。
図4図3中の認識処理に含まれる文字認識処理のフローチャートである。
図5図3中の認識処理に含まれる音声認識処理のフローチャートである。
図6図3中の認識処理に含まれる物体認識処理のフローチャートである。
【発明を実施するための形態】
【0052】
以下、添付図面を参照して、本発明の一実施形態について説明する。
[構成]
[映像コンテンツ管理システム]
図1に示す一実施形態の映像コンテンツ管理システム100は、受信部110と、映像コンテンツ保存部120と、一実施形態のメタデータ生成システム130と、映像コンテンツ管理部150と、要求受付部160と、を有する。
【0053】
受信部110は、放送局200及び配信元300から提供された映像コンテンツを受信する機能ブロックである。受信部110は、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを受信する。放送局200には、地上放送局及び衛星放送局が含まれる。配信元300には、インターネット上に存在する各種映像コンテンツサーバが含まれる。
【0054】
映像コンテンツ保存部120は、受信部110により受信された大量の映像コンテンツを保存する機能ブロックである。映像コンテンツ保存部120には、大容量のHDD(Hard Disk Drive)及び大容量のSSD(Solid State Drive)が含まれる。
【0055】
メタデータ生成システム130は、映像コンテンツ保存部120に記録されている映像コンテンツに関するメタデータを生成する機能ブロックである。
【0056】
映像コンテンツ管理部150は、映像コンテンツ保存部120に保存されている全ての映像コンテンツを、メタデータ生成システム130により生成されたメタデータと関連付けて検索可能に管理する機能ブロックである。
【0057】
要求受付部160は、利用者の端末400から視聴要求を受け付ける機能ブロックである。
【0058】
映像コンテンツ管理部150は、要求受付部160が受け付けた利用者からの視聴要求に応じたメタデータを特定し、当該メタデータを検索キーにして映像コンテンツ保存部120に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを利用者の端末400で視聴可能とする。
【0059】
[メタデータ生成システム]
メタデータ生成システム130は、認識部131と、テキスト化部139と、メタデータ生成部140、とを有する。
【0060】
認識部131は、映像コンテンツ保存部120に保存されている各映像コンテンツに含まれる認識対象を認識する機能ブロックである。認識部131は、文字認識部132と、音声認識部135と、物体認識部137と、を有する。
【0061】
文字認識部132は、各映像コンテンツに画像として含まれる文字又は文字列を認識する機能ブロックである。文字認識部132は、字幕構成文字認識部133と文字認識専用機械学習部134とを有する。
【0062】
字幕構成文字認識部133は、映像コンテンツに重ねて表示される字幕画像を構成する文字を文字コードに変換する機能ブロックである。字幕構成文字認識部133は、字幕画像を構成する各文字を一文字単位で画像認識し、その認識結果に基づいて、前記字幕画像を構成する各文字を文字コードに変換する。
【0063】
字幕画像は、映像コンテンツと共に提供される文字コードに基づいて表示される画像である。文字コードは、規格により定められた文字の集合に含まれるものである。文字の集合を定める規格の例として、ascii、EUC、Unicode、シフトJIS、UTF-8、UTF-16、等を挙げることができる。
【0064】
文字認識専用機械学習部134は、文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習する機能ブロックである。
【0065】
音声認識部135は、各映像コンテンツに含まれる音声を認識する機能ブロックである。音声認識部135は、音声認識専用機械学習部136を有する。音声認識専用機械学習部136は、音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する機能ブロックである。
【0066】
物体認識部137は、各映像コンテンツに画像として含まれる物体を認識する機能ブロックである。物体認識部137は、物体認識専用機械学習部138を有する。物体認識専用機械学習部138は、物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習する機能ブロックである。
【0067】
テキスト化部139は、文字認識部132により認識した文字又は文字列、文字認識部132の字幕構成文字認識部133により変換した文字コード、音声認識部135により認識した音声及び物体認識部137により認識した物体に基づいてテキスト情報を生成する機能ブロックである。
【0068】
メタデータ生成部140は、テキスト化部139により生成されたテキスト情報に基づいて各映像コンテンツのメタデータを生成する機能ブロックである。メタデータは、テレビ放送される映像コンテンツの場合には、番組単位或いは番組中のコーナー単位ごと、もしくは記事単位ごとに生成される。また、映像コンテンツが映画の場合、メタデータは、映画の1作品ごと、映像の所定数のフレームごと、等、種々の単位ごとに作成される。メタデータには、映像コンテンツの提供元(放送局、配信元、等)、映像コンテンツの時間情報(放送日時、配信日時、再生所要時間、等)、内容の要約、等が含まれる。
【0069】
映像コンテンツがニュース番組である場合、文字認識部132による認識対象となる文字又は文字列は、そのニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列であり、音声認識部135による認識対象となる音声は、そのニュース番組内での人物の音声であり、物体認識部137による認識対象となる物体は、そのニュース番組内で表示される人物又は映像構成要素、又は映像構成要素の背景に存在する各種物体、商品、風景、建築物及び構築物等である。
【0070】
映像コンテンツが字幕情報を含む番組である場合、文字認識部132による認識対象となる文字に、その番組内で表示される字幕画像を構成する一つ一つの文字が含まれる。この場合、文字認識部132に含まれる字幕構成文字認識部133が、当該認識された一つ一つの文字を文字コードに変換する。
【0071】
文字認識専用機械学習部134及び物体認識専用機械学習部138は、映像コンテンツの画面レイアウトや背景を考慮してそれぞれ用意された学習用データD1、D3を用いて機械学習する。音声認識専用機械学習部136は、人物の音声に基づいて用意された学習用データD2を用いて機械学習する。
【0072】
たとえば、映像コンテンツがニュース番組である場合、文字認識専用機械学習部134は、そのニュース番組の画面レイアウトを考慮して用意された学習用データD1を用いて、そのニュース番組に表示されるヘッドライン又はテロップに含まれる文字又は文字列をより高精度に認識できるように機械学習する。
また、物体認識専用機械学習部138は、そのニュース番組の画面レイアウトを考慮して用意された学習用データD3を用いて、そのニュース番組内で表示される人物(キャスターやコメンテータ)又は映像構成要素(建物、車両、飛行機、等)及びその背景情報をより高精度に認識できるように機械学習する。
また、音声認識専用機械学習部136は、そのニュース番組に登場する人物(キャスターやコメンテータ)の音声に基づいて用意された学習用データD2を用いて、そのニュース番組内でのその人物の音声をより高精度に認識できるように機械学習する。
この場合、学習用データD1、D3は、ニュース番組単位或いは番組中のコーナー単位又は記事単位ごとの画面レイアウトを考慮して用意される。学習用データD2は、ニュース番組単位或いは番組中のコーナー単位ごとの登場人物の音声に基づいて用意される。
【0073】
[動作]
つぎに、上記のように構成された映像コンテンツ管理システム100における処理の流れを、図2から図6のフローチャートに従って説明する。
【0074】
映像コンテンツ管理システム100は、図2に示すように、映像コンテンツ受信処理S1、映像コンテンツ保存処理S2、メタデータ生成処理S3、映像コンテンツ管理処理S4、要求受付処理S5及び視聴処理S6を含む一連の処理を実行する。
【0075】
映像コンテンツ受信処理S1は、放送局200及び配信元300から提供される映像コンテンツを受信する処理である。
映像コンテンツ保存処理S2は、映像コンテンツ受信処理S1により受信した映像コンテンツを保存する処理である。
【0076】
メタデータ生成処理S3は、映像コンテンツ保存部120に記録されている各映像コンテンツに関するメタデータを生成する処理である。
映像コンテンツ管理処理S4は、映像コンテンツ保存部120に保存されている全ての映像コンテンツを、メタデータ生成処理S3により生成されたメタデータと関連付けて検索可能に管理する処理である。
要求受付処理S5は、利用者の端末400から視聴要求を受け付ける処理である。
【0077】
視聴処理S6は、利用者からの視聴要求に応じたメタデータを特定し、当該メタデータを検索キーにして映像コンテンツ保存部120に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを利用者の端末400で視聴可能とする処理である。
映像コンテンツ受信処理S1、映像コンテンツ保存処理S2、メタデータ生成処理S3及び映像コンテンツ管理処理S4が繰り返し実行されることにより、映像コンテンツ保存部120に大量の映像コンテンツが保存されていくとともに、映像コンテンツ保存部120に保存されている大量の全ての映像コンテンツがメタデータと関連付けて検索可能に管理されるようになる。
【0078】
図3に示すように、メタデータ生成処理S3は、認識・変換ステップS31と、テキスト化ステップS32及びメタデータ作成ステップS33と、を含んで構成される。
認識・変換ステップS31は、映像コンテンツ保存部120に保存されている各映像コンテンツに含まれる認識対象を認識するステップである。認識ステップS31では、文字認識処理(図4)と、音声認識処理(図5)と、物体認識処理(図6)と、が実行される。
【0079】
認識・変換ステップS31には、認識対象が字幕画像である場合に、字幕画像を構成する各文字を一文字単位で画像認識し、その認識結果に基づいて、各文字を文字コードに変換する処理が含まれる。認識対象が字幕画像であるか否かの判別は、字幕画像の表示位置、表示態様、等に基づいてなされる。また、映像コンテンツに付属している字幕情報自体に基づいて判別することも可能である。
【0080】
テキスト化ステップS32では、認識ステップS31により認識した認識対象(文字又は文字列、音声、物体)及び変換された文字コードに基づいてテキスト情報が生成される。
メタデータ作成ステップS33では、テキスト化ステップS32により生成されたテキスト情報に基づいて各映像コンテンツのメタデータが作成される。
【0081】
図4に示すように、文字認識処理は、文字認識ステップ311aと文字認識専用機械学習ステップS311bとを含んで構成される。文字認識ステップ311aでは、各映像コンテンツに画像として含まれる文字又は文字列が認識される。文字の認識には、字幕画像を構成する各文字の認識が含まれる。文字認識専用機械学習ステップS311bでは、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習が行われる。
【0082】
文字認識専用機械学習ステップS311bが繰り返されることにより、文字認識部13(図1)に、文字又は文字列の認識に特化した学習済モデル(以下、「文字用学習済モデル」と記す)が生成される。文字認識部132は、各映像コンテンツに含まれる画像を入力とし、その画像に含まれる文字又は文字列を文字用学習済モデルを用いて認識する。よって、図4に示す文字認識処理の実行回数が増えるほど、文字用学習済モデルの学習度が向上していき、文字認識部132の文字認識性能が向上する。
【0083】
図5に示すように、音声認識処理は、音声認識ステップS312aと音声認識専用機械学習ステップS312bとを含んで構成される。音声認識ステップS312aでは、各映像コンテンツに含まれる音声が認識され、音声認識専用機械学習ステップS312bでは、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習が行われる。
【0084】
音声認識専用機械学習ステップS312bが繰り返されることにより、音声認識部135(図1)に、音声の認識に特化した学習済モデル(以下、「音声用学習済モデル」と記す)が生成される。音声認識部135は、各映像コンテンツに含まれる音声を入力とし、その音声を音声用学習済モデルを用いて認識する。よって、図5に示す音声認識処理の実行回数が増えるほど、音声用学習済モデルの学習度が向上していき、音声認識部135の性能が向上する。
【0085】
図6に示すように、物体認識処理は、物体認識ステップS313aと物体認識専用機械学習ステップS313bとを含んで構成される。物体認識ステップS313aでは、各映像コンテンツに画像として含まれる物体が認識され、物体認識専用機械学習ステップS313bでは、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習が行われる。
【0086】
物体認識専用機械学習ステップS313bが繰り返されることにより、物体認識部137(図1)に、物体の認識に特化した学習済モデル(以下、「物体用学習済モデル」と記す)が生成される。物体認識部137は、各映像コンテンツに含まれる画像を入力とし、その画像に含まれる物体を物体用学習済モデルを用いて認識する。よって、図6に示す物体認識処理の実行回数が増えるほど、物体用学習済モデルの学習度が向上していき、物体認識部137の性能が向上する。
【0087】
[作用・効果]
上記のように構成された本実施形態のメタデータ生成システム130は、テレビ放送またはインターネット配信により提供された各映像コンテンツ内の字幕画像を構成する文字を文字コードに変換するとともに、各映像コンテンツに含まれる音声を認識し、変換した文字コード及び認識した音声に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成する。
【0088】
その際、メタデータ生成システム130は、字幕画像を構成する各文字を一文字単位で画像認識し、その認識結果に基づいて、字幕画像を構成する各文字を文字コードに変換する処理を経た上で、メタデータを作成するための素材となるテキスト情報を生成する。このように、字幕画像を、その基となった字幕情報に係る著作権が及ばない一文字単位で画像認識し、その認識結果に基づいて、各文字を文字コードに変換し、その文字コードに基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成することにより、番組制作者等の著作権を侵害することなくメタデータを生成することができる。
【0089】
また、本実施形態のメタデータ生成システム130は、テレビ放送またはインターネット配信により提供され、映像コンテンツ保存部120に保存された各映像コンテンツに画像として含まれる文字(字幕画像を構成する文字を含む)又は文字列を文字認識部132で認識し、各映像コンテンツに含まれる音声を音声認識部135で認識し、各映像コンテンツに画像として含まれる物体を物体認識部137で認識する。字幕画像を構成する文字は、字幕構成文字認識部133により文字コードに変換する。そして、認識した文字又は文字列、音声、物体及び変換した文字コードに基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成する。
【0090】
その際、本実施形態のメタデータ生成システム130は、文字認識部132が文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習し、音声認識部135が音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習し、物体認識部137が物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習を実行する。
【0091】
文字又は文字列の認識処理についての機械学習は文字認識専用機械学習部134により実行され、音声の認識処理についての機械学習は音声認識専用機械学習部136により実行され、物体の認識処理についての機械学習は物体認識専用機械学習部138により実行される。このように、文字、音声、物体の学習処理がそれぞれ専用の機械学習部により実行されることにより、文字、音声、物体それぞれの認識処理についての機械学習が高効率に進行する。
【0092】
すなわち、文字認識専用機械学習部134、音声認識専用機械学習部136及び物体認識専用機械学習部138による学習処理が各々繰り返されることにより、文字認識部132、音声認識部135及び物体認識部137のそれぞれに、文字、音声及び物体の認識用に特化した文字用学習済モデル、音声用学習済モデル及び物体用学習済モデルが個別に生成される。
【0093】
文字認識部132、音声認識部135及び物体認識部137は、各映像コンテンツに含まれる文字又は文字列の画像、音声及び物体の画像をそれぞれ入力とし、それらを専用の学習済モデル(文字用学習済モデル、音声用学習済モデル、物体用学習済モデル)を用いて認識する。よって、文字認識部132、音声認識部135及び物体認識部137による認識処理の実行回数が増えるほど、それぞれの専用の学習済モデルの学習度が向上していき、文字認識部132、音声認識部135及び物体認識部137の性能が向上する。
【0094】
このように、文字又は文字列の認識精度、音声の認識精度及び物体の認識精度が、それぞれ独立した専用の機械学習により急速に向上していくので、各映像コンテンツに画像として含まれる文字及び物体、そして音声を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。
【0095】
また、本実施形態のメタデータ生成システム130によれば、文字又は文字列の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度が向上する。音声の認識処理についての機械学習が進むにつれて、各ニュース番組内での人物の音声の認識精度が向上する。物体の認識処理についての機械学習が進むにつれて、各ニュース番組内で表示される人物又は映像構成要素の認識精度が向上する。
【0096】
また、本実施形態のメタデータ生成システム130によれば、映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて文字認識専用機械学習部134及び物体認識専用機械学習部138が機械学習を行うことにより、各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度及び各ニュース番組内で表示される人物又は映像構成要素の認識精度が確実に向上する。また、人物の音声に基づいて用意された学習用データを用いて音声認識専用機械学習部136が機械学習を行うことにより、各ニュース番組内での人物の音声の認識精度が確実に向上する。
【0097】
すなわち、本実施形態のメタデータ生成システム130によれば、各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度、各ニュース番組内での人物の音声の認識精度及び各ニュース番組内で表示される物体の認識精度が、それぞれ独立した専用の機械学習により向上する。これにより、ヘッドライン又はテロップに含まれる文字又は文字列、人物の音声及び物体及びその背景をそれぞれきわめて高精度に認識し、それらの認識結果に基づいて各映像コンテンツに関連する正確なメタデータを自動生成することが可能となる。
【0098】
そして、本実施形態のメタデータ生成システム130によれば、ヘッドラインやテロップに含まれる文字又は文字列のみならず、字幕画像を構成する文字に基づいたメタデータ生成処理を行うことにより、より精度の高いメタデータを自動生成することが可能となる。
【0099】
そして、本実施形態の映像コンテンツ管理システム100によれば、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを映像コンテンツ保存部120に保存するとともに、映像コンテンツ保存部120に保存されている全ての映像コンテンツを、本実施形態のメタデータ生成システム130により生成された正確なメタデータと関連付けて検索可能に管理することができるので、高性能な映像コンテンツ管理システム100を実現することができる。
【0100】
なお、本発明は上記実施形態に限定されない。たとえば、上記実施形態のメタデータ生成システム130は、文字認識部132、音声認識部135及び物体認識部137を備えているが、物体認識部137は必須の構成要素ではない。
【0101】
また、上記実施形態では、字幕構成文字認識部133が文字認識部132の一部を構成しているが、字幕構成文字認識部133を文字認識部132とは別の機能ブロックで構成してもよい。
【0102】
また、上記実施形態では、人物の音声に基づいて用意された学習用データを用いて音声認識専用機械学習部136が機械学習を行うこととしたが、人物以外の音声、たとえば災害現場や戦場などの報道中の音声に含まれる爆音、ヘリコプターや飛行機の飛行音、戦車の走行音、等に基づいて用意された学習用データを用いて、音声認識専用機械学習部136が機械学習を行うことも可能である。たとえば、ヘリコプターや飛行機の音に基づいて用意された学習用データを用いて音声認識専用機械学習部136が機械学習を行うことにより、音声認識部135によるヘリコプターや飛行機の音の認識精度を向上させることができる。
【0103】
また、上記実施形態において、物体認識部137が認識する人物の要素は、当該人物の顔のみであっても、顔を含む身体の一部であってもよい。
【符号の説明】
【0104】
100 映像コンテンツ管理システム
120 映像コンテンツ保存部
130 メタデータ生成システム
132 文字認識部
133 字幕構成文字認識部
134 文字認識専用機械学習部
135 音声認識部
136 音声認識専用機械学習部
137 物体認識部
138 物体認識専用機械学習部
139 テキスト化部
140 メタデータ生成部
150 映像コンテンツ管理部
160 要求受付部
D1 学習用データ
D3 学習用データ
D2 学習用データ
S31 認識ステップ
S311a 文字認識ステップ
S311b 文字認識専用機械学習ステップ
S312a 音声認識ステップ
S312b 音声認識専用機械学習ステップ
S313a 物体認識ステップ
S313b 物体認識専用機械学習ステップ
S32 テキスト化ステップ
S33 メタデータ作成ステップ
図1
図2
図3
図4
図5
図6