(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023072435
(43)【公開日】2023-05-24
(54)【発明の名称】知識データ生成装置及びプログラム
(51)【国際特許分類】
G06F 16/908 20190101AFI20230517BHJP
G10L 15/10 20060101ALI20230517BHJP
G06F 16/90 20190101ALI20230517BHJP
【FI】
G06F16/908
G10L15/10 200W
G06F16/90 100
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2021184993
(22)【出願日】2021-11-12
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】小松 佑人
(72)【発明者】
【氏名】藤沢 寛
(72)【発明者】
【氏名】藤津 智
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175EA01
5B175FB03
(57)【要約】
【課題】様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するためのデータを生成する。
【解決手段】知識データ生成装置1のデータ処理部11は、放送番組コンテンツを構成するマルチモーダルな音声データ、画像データ及び字幕データに対し、対応する音声認識処理、物体認識処理等を施し、各処理に応じた1または複数のキーワードを求める。スコア算出部13は、処理毎の重みを用いて、各処理に応じた1または複数のキーワードをスコア化し、同一のキーワード毎に、各処理を統合した1フレームのスコアを求める。キーワード選択部14は、複数のキーワードのうち、スコアが最大のキーワードを選択し、コンテンツ情報及び選択したキーワードを、知識データとして生成する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
コンテンツに関するキーワードを求め、前記コンテンツの識別情報及び前記キーワードを、所望コンテンツを検索する際に用いる知識データとして生成する知識データ生成装置であって、
前記コンテンツは、複数種類のデータにより構成されるものとして、
前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から前記キーワードを求めるデータ処理部と、
前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部と、
前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、前記コンテンツの識別情報及び選択された前記キーワードからなる前記知識データを生成するキーワード選択部と、
を備えたことを特徴とする知識データ生成装置。
【請求項2】
請求項1に記載の知識データ生成装置において、
前記コンテンツは、音声データ、画像データ及び字幕データのうちの2つまたは3つのデータから構成されるものとして、
前記データ処理部は、
前記コンテンツに前記音声データが含まれる場合、前記音声データの1フレームに対して音声認識処理を施し、音声についての文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、
前記コンテンツに前記画像データが含まれる場合、前記画像データの1フレームに対して物体認識処理を施し、物体の名称を含む文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、前記画像データの1フレームに対して文字認識処理及び形態素解析処理を施し、文字を含む文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、
前記コンテンツに前記字幕データが含まれる場合、前記字幕データの1フレームに対して形態素解析処理を施し、字幕についての文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、
前記スコア算出部は、
前記データ処理部により前記2つまたは3つのデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、前記音声データに対する前記音声認識処理、前記画像データに対する前記物体認識処理、前記画像データに対する前記文字認識処理及び前記形態素解析処理、並びに、前記字幕データに対する前記形態素解析処理を統合した1フレームのスコアを算出し、
前記キーワード選択部は、
前記複数のキーワードのうち、前記スコア算出部により算出された前記1フレームのスコアが最大となる前記キーワードを選択し、前記知識データを生成する、ことを特徴とする知識データ生成装置。
【請求項3】
請求項1に記載の知識データ生成装置において、
前記コンテンツは、音声データ、画像データ及び字幕データのうちの2つまたは3つのデータから構成されるものとして、
前記データ処理部は、
前記コンテンツに前記音声データが含まれる場合、前記音声データの1フレームに対して音声認識処理を施し、音声についての文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、
前記コンテンツに前記画像データが含まれる場合、前記画像データの1フレームに対して物体認識処理を施し、物体の名称を含む文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、前記画像データの1フレームに対して文字認識処理及び形態素解析処理を施し、文字を含む文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、
前記コンテンツに前記字幕データが含まれる場合、前記字幕データの1フレームに対して形態素解析処理を施し、字幕についての文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、
前記スコア算出部は、
前記データ処理部により前記2つまたは3つのデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、前記音声データに対する前記音声認識処理、前記画像データに対する前記物体認識処理、前記画像データに対する前記文字認識処理及び前記形態素解析処理、並びに、前記字幕データに対する前記形態素解析処理を統合した1フレームのスコアを算出し、予め設定されたNフレーム(N個の連続フレーム、Nは2以上の整数)について前記1フレームのスコアを加算することで、Nフレームのスコアを算出し、
前記キーワード選択部は、
前記複数のキーワードのうち、前記スコア算出部により算出された前記Nフレームのスコアが最大となる前記キーワードを選択し、前記知識データを生成する、ことを特徴とする知識データ生成装置。
【請求項4】
請求項2または3に記載の知識データ生成装置において、
前記スコア算出部は、
前記コンテンツに前記音声データが含まれる場合、前記音声データに対する前記音声認識処理に対する予め設定された重みを用いて、当該音声データについて求めた前記キーワードをスコア化し、
前記コンテンツに前記画像データが含まれる場合、前記画像データに対する前記物体認識処理、並びに、前記画像データに対する前記文字認識処理及び前記形態素解析処理のそれぞれに対する予め設定された重みを用いて、当該画像データについて求めた前記キーワードをスコア化し、
前記コンテンツに前記字幕データが含まれる場合、前記字幕データに対する前記形態素解析処理に対する予め設定された重みを用いて、当該字幕データについて求めた前記キーワードをスコア化する、ことを特徴とする知識データ生成装置。
【請求項5】
コンテンツに関するキーワードを求め、前記コンテンツの識別情報及び前記キーワードを、所望コンテンツを検索する際に用いる知識データとして生成する知識データ生成装置を構成するコンピュータを、
前記コンテンツを構成する複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から前記キーワードを求めるデータ処理部、
前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部、及び、
前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、前記コンテンツの識別情報及び選択された前記キーワードからなる前記知識データを生成するキーワード選択部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツを検索するためのデータベースを生成する技術に関する。
【背景技術】
【0002】
従来、コンテンツ同士を意味的に結び付けることでコンテンツを連携させ、ユーザの所望するコンテンツを提示する技術の開発が進められている。コンテンツを連携させる技術とは、コンテンツ同士を繋げる技術である。
【0003】
例えば教育分野において、ユーザによる自発的な学習を補助するために、現在使用しているコンテンツに関連するコンテンツを提示する手法が開示されている(例えば、特許文献1及び非特許文献1を参照)。
【0004】
一般に、指導者がユーザの習熟度を完全にかつ適切に把握することは困難であり、ユーザ自身の習熟度に合わせて、ユーザの自発的な学習が求められる。一方で、学習に使用するコンテンツも電子教材の普及に伴い、多種多様なものが作られている。
【0005】
ユーザは、自学自習する際に、多様なコンテンツの中から自分に合ったものを検索する必要があり、習熟度に応じたコンテンツ検索方法が所望されていた。つまり、ユーザの自発的な学習を補助するために、現在の学習に使用しているコンテンツから、これに関連するコンテンツを提示することが可能な手法が所望されていた。
【0006】
このような手法の例として、特許文献1には、学習指導要領を元に学習領域を定め、その中から学年、教科及び教科書単元に基づいて、レコメンド教材のコンテンツをユーザへ提示する手法が開示されている。
【0007】
また、非特許文献1には、教科書に記載されている各単元の導入部に基づいて、学習順序及び学習系統を構造化し、構造化されたデータを用いてユーザに学習支援を行う手法が開示されている。
【0008】
このようなコンテンツ提示手法は、ユーザの学習に対する習熟度の差が大きいという状況を考慮したものである。例えば、一斉授業のような画一的な教育方法では、ユーザの習熟度に合った教育を提供することができないため、このようなコンテンツ提示手法が用いられる。
【先行技術文献】
【特許文献】
【0009】
【非特許文献】
【0010】
【非特許文献1】後藤隆友、“オントロジーに基づく数学教育支援システムの提案”、電子情報通信学会技術研究報告、ET、教育工学 105(581)、7-12、2006
【発明の概要】
【発明が解決しようとする課題】
【0011】
しかしながら、前述の特許文献1に記載された学習指導要領を元にコンテンツを提示する手法、及び前述の非特許文献1に記載された学習順序を元にコンテンツを提示する手法では、ユーザは、現在の学習に使用しているコンテンツに関連するコンテンツとして、教材以外のコンテンツ(例えば放送番組コンテンツ)の提示を受けることが難しい。
【0012】
つまり、前述の手法では、学習指導要領等に関連する領域及びこれに近接した領域のコンテンツが提示されることとなり、提示されるコンテンツの領域が限定されてしまう。このため、ユーザは、学習のためのコンテンツの提示を受けることができるが、その効果は十分でないという問題があった。
【0013】
また、前述の手法では、ユーザがコンテンツの提示を受けた後に、引き続きコンテンツの提示を受けるためには、データを入力し直す必要があり、人手及び作業時間のコストがかかってしまう。
【0014】
ここで、ユーザは、教材のコンテンツに加え、教材以外の例えば放送番組コンテンツの提示を受けることができれば、効果的な学習を実現できることが期待される。
【0015】
このような効果的な学習を実現するために、教材以外の様々な領域のコンテンツも提示可能とするデータベースの構築が必要となる。
【0016】
教育分野だけでなく、教育以外の分野においても、現在使用しているコンテンツに関連するコンテンツを、様々な領域から検索して提示するためには、コンテンツ同士を連携させるデータベースの構築を自動化する必要がある。構築したデータベースを用いることにより、様々な領域のコンテンツの連携が実現され、ユーザは、精度の高い所望のコンテンツを検索することができる。以下、コンテンツ同士を連携するために用いるデータを「知識データ」という。
【0017】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するためのデータを生成する知識データ生成装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0018】
前記課題を解決するために、請求項1の知識データ生成装置は、コンテンツに関するキーワードを求め、前記コンテンツの識別情報及び前記キーワードを、所望コンテンツを検索する際に用いる知識データとして生成する知識データ生成装置であって、前記コンテンツは、複数種類のデータにより構成されるものとして、前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から前記キーワードを求めるデータ処理部と、前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部と、前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、前記コンテンツの識別情報及び選択された前記キーワードからなる前記知識データを生成するキーワード選択部と、を備えたことを特徴とする。
【0019】
また、請求項2の知識データ生成装置は、請求項1に記載の知識データ生成装置において、前記コンテンツが、音声データ、画像データ及び字幕データのうちの2つまたは3つのデータから構成されるものとして、前記データ処理部が、前記コンテンツに前記音声データが含まれる場合、前記音声データの1フレームに対して音声認識処理を施し、音声についての文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、前記コンテンツに前記画像データが含まれる場合、前記画像データの1フレームに対して物体認識処理を施し、物体の名称を含む文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、前記画像データの1フレームに対して文字認識処理及び形態素解析処理を施し、文字を含む文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、前記コンテンツに前記字幕データが含まれる場合、前記字幕データの1フレームに対して形態素解析処理を施し、字幕についての文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、前記スコア算出部が、前記データ処理部により前記2つまたは3つのデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、前記音声データに対する前記音声認識処理、前記画像データに対する前記物体認識処理、前記画像データに対する前記文字認識処理及び前記形態素解析処理、並びに、前記字幕データに対する前記形態素解析処理を統合した1フレームのスコアを算出し、前記キーワード選択部が、前記複数のキーワードのうち、前記スコア算出部により算出された前記1フレームのスコアが最大となる前記キーワードを選択し、前記知識データを生成する、ことを特徴とする。
【0020】
また、請求項3の知識データ生成装置は、請求項1に記載の知識データ生成装置において、前記コンテンツが、音声データ、画像データ及び字幕データのうちの2つまたは3つのデータから構成されるものとして、前記データ処理部が、前記コンテンツに前記音声データが含まれる場合、前記音声データの1フレームに対して音声認識処理を施し、音声についての文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、前記コンテンツに前記画像データが含まれる場合、前記画像データの1フレームに対して物体認識処理を施し、物体の名称を含む文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、前記画像データの1フレームに対して文字認識処理及び形態素解析処理を施し、文字を含む文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、前記コンテンツに前記字幕データが含まれる場合、前記字幕データの1フレームに対して形態素解析処理を施し、字幕についての文章の文字列を検出し、前記文章の文字列から前記キーワードを求め、前記スコア算出部が、前記データ処理部により前記2つまたは3つのデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、前記音声データに対する前記音声認識処理、前記画像データに対する前記物体認識処理、前記画像データに対する前記文字認識処理及び前記形態素解析処理、並びに、前記字幕データに対する前記形態素解析処理を統合した1フレームのスコアを算出し、予め設定されたNフレーム(N個の連続フレーム、Nは2以上の整数)について前記1フレームのスコアを加算することで、Nフレームのスコアを算出し、前記キーワード選択部が、前記複数のキーワードのうち、前記スコア算出部により算出された前記Nフレームのスコアが最大となる前記キーワードを選択し、前記知識データを生成する、ことを特徴とする。
【0021】
また、請求項4の知識データ生成装置は、請求項2または3に記載の知識データ生成装置において、前記スコア算出部が、前記コンテンツに前記音声データが含まれる場合、前記音声データに対する前記音声認識処理に対する予め設定された重みを用いて、当該音声データについて求めた前記キーワードをスコア化し、前記コンテンツに前記画像データが含まれる場合、前記画像データに対する前記物体認識処理、並びに、前記画像データに対する前記文字認識処理及び前記形態素解析処理のそれぞれに対する予め設定された重みを用いて、当該画像データについて求めた前記キーワードをスコア化し、前記コンテンツに前記字幕データが含まれる場合、前記字幕データに対する前記形態素解析処理に対する予め設定された重みを用いて、当該字幕データについて求めた前記キーワードをスコア化する、ことを特徴とする。
【0022】
さらに、請求項5のプログラムは、コンテンツに関するキーワードを求め、前記コンテンツの識別情報及び前記キーワードを、所望コンテンツを検索する際に用いる知識データとして生成する知識データ生成装置を構成するコンピュータを、前記コンテンツを構成する複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から前記キーワードを求めるデータ処理部、前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部、及び、前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、前記コンテンツの識別情報及び選択された前記キーワードからなる前記知識データを生成するキーワード選択部として機能させることを特徴とする。
【発明の効果】
【0023】
以上のように、本発明によれば、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するためのデータを生成することができる。
【図面の簡単な説明】
【0024】
【
図1】本発明の実施形態による知識データ生成装置を用いた全体システムの概要を説明する図である。
【
図2】本発明の実施形態による知識データ生成装置の構成例を示すブロック図である。
【
図3】入力部、データ処理部及びスコア算出部による実施例1の処理例を示すフローチャートである。
【
図4】スコア算出部による実施例1のスコア算出例を説明する図である。
【
図5】キーワード選択部による実施例1の処理例を示すフローチャートである。
【
図7】入力部、データ処理部及びスコア算出部による実施例2の処理例を示すフローチャートである。
【
図8】スコア算出部による実施例2のスコア算出例を説明する図である。
【
図9】キーワード選択部による実施例2の処理例を示すフローチャートである。
【発明を実施するための形態】
【0025】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔本発明の概要〕
まず、本発明の概要について説明する。本発明は、コンテンツを構成する複数種類のマルチモーダルなデータを用いて、コンテンツとその他の様々なコンテンツとの間を繋げるために用いる知識データを生成するものである。
【0026】
図1は、本発明の実施形態による知識データ生成装置を用いた全体システムの概要を説明する図である。このシステムは、知識データ生成装置1、所定分野の領域のデータベース(DB)からなる外部データ2-1、図書館データ(図書館が管理しているデータ)のコンテンツからなる外部データ2-2、及び博物館データ(博物館が管理しているデータ)のコンテンツからなる外部データ2-3等、番組情報の放送番組コンテンツからなる放送局データ3-1、及びニュースの放送番組コンテンツからなる放送局データ3-2等、並びに、ユーザ端末4-1,4-2,4-3等を備えて構成される。
【0027】
知識データ生成装置1は、例えば放送局データ3-1から、放送番組コンテンツを構成する音声データ、画像データ及び字幕データを入力し、これらの複数種類のマルチモーダルなデータを用いて、当該放送番組コンテンツを表す最適な意味合いの語彙をキーワードとして求める。そして、知識データ生成装置1は、当該放送番組コンテンツを識別するための情報(識別情報)等のコンテンツ情報、及びキーワードからなる知識データを生成する。
【0028】
知識データ生成装置1は、放送局データ3-1,3-2等、外部データ2-1,2-2,2-3等のコンテンツを用いて知識データを生成することで、知識データのDBを構築する。
【0029】
ユーザ端末4-1,4-2,4-3等を操作するユーザは、例えば放送局データ3-1における健康番組の放送番組コンテンツを視聴しているときに、当該放送番組コンテンツから選定したキーワードにより、知識データのDBを用いた検索を行う。
【0030】
例えば、ユーザ端末4-1を操作するユーザは、「DNA診断」に関連するコンテンツの取得を希望する場合、知識データのDBを用いた検索が行われることで、放送局データ3-2から「がんのDNA診断」のコンテンツ等を取得する。また、ユーザ端末4-2を操作するユーザは、放送局データ3-1から「生物DNAの構造」のコンテンツ、外部データ2-3から「人体II遺伝子」のコンテンツ等を取得する。
【0031】
このように、知識データを用いることで、様々な分野のコンテンツ(外部データ2-1,2-2,2-3等及び放送局データ3-1,3-2等のコンテンツ)を繋げることができ、ユーザに対し、所望のコンテンツをレコメンドすることができる。また、ユーザの興味関心を広げた形で、コンテンツを提示することができる。
【0032】
つまり、知識データ生成装置1により、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成することができる。以下、外部データ2-1,2-2,2-3等を総称して外部データ2といい、放送局データ3-1,3-2等を総称して放送局データ3という。
【0033】
〔知識データ生成装置1〕
次に、知識データ生成装置1について説明する。
図2は、本発明の実施形態による知識データ生成装置1の構成例を示すブロック図である。
【0034】
この知識データ生成装置1は、入力部10、データ処理部11、メモリ12、スコア算出部13及びキーワード選択部14を備えている。データ処理部11は、音声処理部11-1、画像物体処理部11-2、画像文字処理部11-3及び字幕処理部11-4を備えている。
【0035】
知識データ生成装置1は、コンテンツに含まれる画像データだけでなく、音声データ及び字幕データを用いて、コンテンツを表す最適な意味合いの語彙をキーワードとして求める。
【0036】
入力部10は、外部データ2及び放送局データ3のうち例えば放送局データ3から、放送番組コンテンツを識別するための情報等のコンテンツ情報、及び放送番組コンテンツのデータ(音声データ、画像データ及び字幕データ)を入力する。そして、入力部10は、コンテンツ情報をキーワード選択部14に出力する。
【0037】
入力部10は、放送番組コンテンツのデータから音声データ、画像データ及び字幕データを抽出し、これらのデータをデータ処理部11に出力する。具体的には、入力部10は、音声データを音声処理部11-1に、画像データを画像物体処理部11-2及び画像文字処理部11-3に、字幕データを字幕処理部11-4にそれぞれ出力する。
【0038】
データ処理部11は、入力部10から音声データ、画像データ及び字幕データを入力し、当該放送番組コンテンツの動画像のフレーム毎に、これらのマルチモーダルなデータを用いて、当該放送番組コンテンツに対する最適なキーワードを求め、フレーム毎のキーワードをメモリ12に格納する。
【0039】
具体的には、音声処理部11-1は、入力部10から音声データを入力し、フレーム毎に、当該音声データに対して音声認識処理を施し、キーワードを求める。そして、音声処理部11-1は、音声認識処理により求めたキーワードをメモリ12に格納する。音声データに対する音声認識処理にてキーワードを求める処理は既知であるため、ここでは詳細な説明を省略する。
【0040】
画像物体処理部11-2は、入力部10から画像データを入力し、フレーム毎に、当該画像データに対して物体認識処理を施し、キーワードを求める。そして、画像物体処理部11-2は、画像データに対する物体認識処理により求めたキーワードをメモリ12に格納する。画像データに対する物体認識処理にてキーワードを求める処理は既知であるため、ここでは詳細な説明を省略する。
【0041】
画像文字処理部11-3は、入力部10から画像データを入力し、フレーム毎に、画像データに対して文字認識処理及び形態素解析処理を施し、キーワードを求める。そして、画像文字処理部11-3は、画像データに対する文字認識処理及び形態素解析処理により求めたキーワードをメモリ12に格納する。画像データに対する文字認識処理及び形態素解析処理にてキーワードを求める処理は既知であるため、ここでは詳細な説明を省略する。
【0042】
字幕処理部11-4は、入力部10から字幕データを入力し、フレーム毎に、字幕データに対して形態素解析処理を施し、キーワードを求める。そして、字幕処理部11-4は、字幕データに対する形態素解析処理により求めたキーワードをメモリ12に格納する。字幕データに対する形態素解析処理にてキーワードを求める処理は既知であるため、ここでは詳細な説明を省略する。
【0043】
これにより、メモリ12には、放送番組コンテンツの動画像のフレーム毎に、音声データに対する音声認識処理(以下、「音声認識処理」という。)、画像データに対する物体認識処理、画像データに対する文字認識処理等、及び字幕データに対する形態素解析処理(以下、「字幕解析処理」という。)より得られたそれぞれのキーワードが、リスト化された状態で格納される。
【0044】
スコア算出部13は、メモリ12から、フレーム毎に、音声認識処理、画像データからの物体認識処理、画像データからの文字認識処理等、及び字幕解析処理により得られたそれぞれのキーワードを読み出す。また、スコア算出部13は、音声認識処理、画像データからの物体認識処理、画像データからの文字認識処理等、及び字幕解析処理についての重み(処理毎の重み)を入力する。処理毎の重みは、予め設定され、ユーザの操作により変更することができる。
【0045】
スコア算出部13は、1フレームにつき、同一のキーワード毎に、音声認識処理、画像データからの物体認識処理、画像データからの文字認識処理等、及び字幕解析処理のそれぞれについて、当該キーワードの個数をカウントする。そして、スコア算出部13は、同一のキーワード毎に、各処理のカウント値に重みを乗算することで、各処理の乗算結果を求め、各処理の乗算結果を加算(マージ)することで、キーワード毎の1フレームのスコアを求める。スコア算出部13は、同一のキーワード毎に、1フレームのスコアをメモリ12に格納する。
【0046】
これにより、メモリ12には、後述する
図4に示すとおり、同一のキーワード毎の1フレームのスコア(キーワード毎の各処理につき合計したスコア)が格納される。
【0047】
後述する実施例2においては、さらに、スコア算出部13は、メモリ12から、予め設定されたN個の連続するフレームについて、キーワード毎の1フレームのスコアを読み出し、キーワード毎に、N個の連続するフレームのスコアを加算することで、Nフレーム(N個の連続するフレーム)のスコアを求める。Nは、2以上の整数である。スコア算出部13は、Nフレームのスコアを、メモリ12に格納する。
【0048】
これにより、メモリ12には、後述する
図8に示すとおり、キーワード毎のNフレームのスコア(N個の連続するフレームについてキーワード毎の各処理につき合計したスコア)が格納される。
【0049】
キーワード選択部14は、入力部10からコンテンツ情報を入力すると共に、メモリ12から、キーワード毎に、当該キーワードを読み出すと共に、後述する実施例1においては1フレームのスコアを読み出し、後述する実施例2においてはNフレームのスコアを読み出す。
【0050】
キーワード選択部14は、読み出したキーワード毎のスコアに対応する複数のキーワードのうち、スコアが最大のキーワードを選択する。そして、キーワード選択部14は、後述する実施例1においては当該1フレームを特定するための情報、後述する実施例2においては当該Nフレームを特定するための情報を、コンテンツ情報に追加する。
【0051】
キーワード選択部14は、当該放送番組コンテンツを識別するための情報等に加え、当該1フレームまたは当該Nフレームを特定するための情報を含むコンテンツ情報、及び選択したキーワードを知識データとして出力することで、図示しないメモリに格納する。
【0052】
以上のように、本発明の実施形態の知識データ生成装置1によれば、コンテンツを構成するマルチモーダルなデータを用いて、キーワードを求め、複数のキーワードのそれぞれをスコア化してスコアが最大のキーワードを選択し、当該キーワードを含む知識データを生成する。
【0053】
このように、様々な分野の外部データ2及び放送局データ3のコンテンツを用いて知識データが生成された場合、知識データには、コンテンツの意味合いの幅が広がった複数のキーワードが含まれることとなる。そして、この知識データを用いて、ユーザによる所望のコンテンツの検索が行われることで、様々なコンテンツの連携を実現することができる。また、知識データは、コンテンツを構成するマルチモーダルなデータを用いて生成され、かつ様々な分野の外部データ2及び放送局データ3のコンテンツを用いて生成される。この知識データを用いることで、精度の高いコンテンツの提示を実現することができる。
【0054】
例えば、知識データのキーワード同士が比較され、同一または類似するキーワードに対応するコンテンツが検索されることで、ユーザは、関連するコンテンツの提示を受けることができる。また、ユーザが指定するキーワードと、知識データのキーワードとが比較され、同一または類似するキーワードに対応するコンテンツが検索されることで、ユーザは、指定したキーワードに対応するコンテンツの提示を得ることができる。
【0055】
教育分野の領域において、前述の特許文献1では、学習指導要領を元にコンテンツが提示され、前述の非特許文献1では、教科書に記載された学習順序を元にコンテンツが提示されるため、提示されるコンテンツの範囲が限定されていた。また、コンテンツは、ユーザの習熟度に関係することなく提示されてしまう。
【0056】
これに対し、本発明の実施形態では、知識データが、コンテンツを構成するマルチモーダルなデータを用いて生成される。そして、この知識データを用いて検索が行われ、コンテンツがユーザに提示される。
【0057】
例えば、知識データに含まれるキーワード同士が比較されることで、ユーザが指定したキーワードと同一のキーワードに対応する他の分野のコンテンツの提示が可能となる。このため、学習指導要領及び教科書に記載された学習順序に依存することなく、コンテンツの提示が可能となる。
【0058】
また、知識データを用いて、ユーザが指定したキーワードに類似するキーワードに対応するコンテンツが検索されることで、検索されたコンテンツのリストの提示が可能となる。ユーザは、そのリストを参照することで、自身の習熟度または興味に応じて、次に学習するコンテンツを自発的に選択することができる。
【0059】
つまり、本発明の実施形態の知識データ生成装置1によれば、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成することができる。
【0060】
〔実施例1〕
次に、
図2に示した知識データ生成装置1による実施例1の処理について説明する。実施例1は、放送番組コンテンツの動画像について、マルチモーダルなデータを用いてキーワードを求め、キーワードをスコア化して1フレームのスコアを求め、複数のキーワードのうち1フレームのスコアが最大のキーワードを選択することで、知識データを生成する。
【0061】
図3は、入力部10、データ処理部11及びスコア算出部13による実施例1の処理例を示すフローチャートである。
【0062】
入力部10は、例えば放送局データ3から、放送番組コンテンツを構成する音声データ、画像データ及び字幕データ等を入力する(ステップS301,S302,S303)。
【0063】
音声処理部11-1は、ステップS301から移行して、放送番組コンテンツの動画像における1フレームの音声データに対して音声認識処理を施し(ステップS304)、音声認識処理が正常に行われたか否かを判定する(ステップS305)。
【0064】
音声処理部11-1は、ステップS305において、音声認識処理が正常に行われたと判定した場合(ステップS305:Y)、ステップS312へ移行する。一方、音声処理部11-1は、ステップS305において、音声認識処理が正常に行われなかったと判定した場合(ステップS305:N)、音声処理部11-1の処理を終了する。
【0065】
画像物体処理部11-2は、ステップS302から移行して、放送番組コンテンツの動画像における1フレームの画像データに対して物体認識処理を施し(ステップS306)、物体認識処理が正常に行われたか否かを判定する(ステップS307)。
【0066】
画像物体処理部11-2は、ステップS307において、物体認識処理が正常に行われたと判定した場合(ステップS307:Y)、ステップS312へ移行する。一方、画像物体処理部11-2は、ステップS307において、物体認識処理が正常に行われなかったと判定した場合(ステップS307:N)、画像物体処理部11-2の処理を終了する。
【0067】
画像文字処理部11-3は、ステップS302から移行して、放送番組コンテンツの動画像における1フレームの画像データに対して文字認識処理及び形態素解析処理を施す(ステップS308)。そして、画像文字処理部11-3は、文字認識処理及び形態素解析処理が正常に行われたか否かを判定する(ステップS309)。
【0068】
画像文字処理部11-3は、ステップS309において、文字認識処理及び形態素解析処理が正常に行われたと判定した場合(ステップS309:Y)、ステップS312へ移行する。一方、画像文字処理部11-3は、ステップS309において、文字認識処理が正常に行われなかったと判定した場合、または形態素解析処理が正常に行われなかったと判定した場合(ステップS309:N)、画像文字処理部11-3の処理を終了する。
【0069】
字幕処理部11-4は、ステップS303から移行して、放送番組コンテンツの動画像における1フレームの字幕データに対して形態素解析処理を施し(ステップS310)、形態素解析処理が正常に行われたか否かを判定する(ステップS311)。
【0070】
字幕処理部11-4は、ステップS311において、形態素解析処理が正常に行われたと判定した場合(ステップS311:Y)、ステップS312へ移行する。一方、字幕処理部11-4は、ステップS311において、形態素解析処理が正常に行われなかったと判定した場合(ステップS311:N)、字幕処理部11-4の処理を終了する。
【0071】
音声処理部11-1、画像物体処理部11-2、画像文字処理部11-3及び字幕処理部11-4は、ステップS305(Y),S307(Y),S309(Y),S311(Y)から移行して、それぞれの処理結果からキーワードを求めてリスト化し、リスト化したキーワードをメモリ12に格納する(ステップS312)。
【0072】
具体的には、音声処理部11-1は、音声データに対する音声認識処理により、音声についての文章の文字列を検出し、検出された文章の文字列からキーワードを求める。また、画像物体処理部11-2は、画像データに対する物体認識処理により物体を含む領域を検出し、当該領域から物体の名称を含む文章の文字列を検出し、検出された文章の文字列からキーワードを求める。例えば物体が「自動車」の場合、物体の名称を含む文章の文字列として「自動車が走っています。」等が検出される。
【0073】
画像文字処理部11-3は、画像データに対する文字認識処理及び形態素解析処理により、文字を含む文章の文字列を検出し、検出された文章の文字列からキーワードを求める。また、字幕処理部11-4は、字幕データに対する形態素解析処理により、字幕についての文章の文字列を検出し、検出された文章の文字列からキーワードを求める。
【0074】
これにより、放送番組コンテンツの動画像における1フレームについて、音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理等、及び字幕解析処理により得られたそれぞれの1または複数のキーワードが、リスト化された状態でメモリ12に格納される。
【0075】
スコア算出部13は、メモリ12から、1フレームについて、音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理等、及び字幕解析処理により得られたそれぞれの1または複数のキーワードを読み出す。
【0076】
スコア算出部13は、同一のキーワード毎に、音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理等、及び字幕解析処理のそれぞれについて、当該同一のキーワードの個数をカウントする。そして、スコア算出部13は、同一のキーワード毎の各処理について、カウント値に予め設定された重み(処理毎の重み)を乗算することで、キーワードをスコア化し、各処理の乗算結果を加算することで、同一のキーワード毎に、各処理を統合した1フレームのスコアを求め、メモリ12に格納する(ステップS313)。
【0077】
図4は、スコア算出部13による実施例1のスコア算出例を説明する図である。音声認識処理の重みとして0.5、画像データからの物体認識処理の重みとして0.8、画像データからの文字認識処理等の重みとして0.7、字幕解析処理の重みとして0.9が予め設定されているものとする。
【0078】
また、音声処理部11-1により、1個の「スノーボード」のキーワード等が生成され、画像物体処理部11-2により、2個の「スキー」、1個の「スケートボード」及び1個の「卓球」のキーワード等が生成されたものとする。例えば画像データに、2人がスキーをしている状態が表れている場合、画像物体処理部11-2は、2個の「スキー」のキーワードを求めることとなる。さらに、画像文字処理部11-3により、1個の「スキー」のキーワード等が生成され、字幕処理部11-4により、1個の「スキー」のキーワードが生成されたものとする。
【0079】
この場合、スコア算出部13により、「スキー」のキーワードについて、画像データからの物体認識処理により得られたキーワードの数である2個に、画像データからの物体認識処理の重みである0.8が乗算されることで、画像データからの物体認識処理のスコアとして1.6が得られる。また、スコア算出部13により、「スキー」のキーワードについて、画像データからの文字認識処理等により得られたキーワードの数である1個に、画像データからの文字認識処理等の重みである0.7が乗算されることで、画像データからの文字認識処理等のスコアとして0.7が得られる。さらに、スコア算出部13により、「スキー」のキーワードについて、文字解析処理により得られたキーワードの数である1個に、文字解析処理の重みである0.9が乗算されることで、文字解析処理のスコアとして0.9が得られる。
【0080】
そして、スコア算出部13により、これらのスコア1.6,0.7,0.9が加算されることで、「スキー」のキーワードについて、1フレームのスコアとして3.2が得られる。
【0081】
同様に、スコア算出部13により、「スノーボード」のキーワードについて、1フレームのスコアとして0.5が得られ、「スケートボード」「卓球」のキーワードについて、1フレームのスコアとして0.8が得られる。
【0082】
尚、「ボール」等のキーワードについては、1フレームのスコアは0である。これらのキーワードは、メモリ12に予め設定されたものである。
【0083】
また、
図3において、1フレームの音声データ、画像データ及び字幕データについて、ステップS305(N)にて音声認識処理が正常に行われず、かつステップS307(N)にて物体認識処理が正常に行われず、かつステップS309(N)により文字認識処理等が正常に行われず、かつステップS311(N)により形態素解析処理が正常に行われていない場合には、ステップS312,S313の処理は行われない。
【0084】
図5は、キーワード選択部14による実施例1の処理例を示すフローチャートである。キーワード選択部14は、メモリ12から、キーワードに対応する1フレームのスコアを取得する(読み出す)(ステップS501)。
【0085】
キーワード選択部14は、当該キーワードについて、1フレームのスコアが最大値よりも大きいか否かを判定する(ステップS502)。尚、最大値は、初期値として0が設定されているものとする。
【0086】
キーワード選択部14は、ステップS502において、1フレームのスコアが最大値よりも大きいと判定した場合(ステップS502:Y)、当該1フレームのスコアを最大値に設定することで、最大値を更新し(ステップS503)、ステップS504へ移行する。
【0087】
一方、キーワード選択部14は、ステップS502において、1フレームのスコアが最大値よりも大きくないと判定した場合(ステップS502:N)、ステップS504へ移行する。
【0088】
キーワード選択部14は、ステップS503またはステップS502(N)から移行して、全てのキーワード(メモリ12に格納されている全てのキーワード)についての処理が完了したか否かを判定する(ステップS504)。
【0089】
キーワード選択部14は、ステップS504において、全てのキーワードについての処理が完了していないと判定した場合(ステップS504:N)、ステップS501へ移行し、メモリ12から、次のキーワードに対応する1フレームのスコアを読み出す。そして、キーワード選択部14は、ステップS502,S503の処理を行う。
【0090】
一方、キーワード選択部14は、ステップS504において、全てのキーワードについての処理が完了したと判定した場合(ステップS504:Y)、メモリ12に格納された複数のキーワードのうち、スコアが最大のキーワード(ステップS503にて最後に最大値を更新したときの1フレームのスコアに対応するキーワード)を選択する(ステップS505)。
図4に示したスコア算出例においては、キーワード選択部14により、1フレームのスコアが最大(3.2)である「スキー」のキーワードが選択される。
【0091】
キーワード選択部14は、コンテンツ情報、及びステップS505にて選択したキーワードを知識データとして出力する(ステップS506)。例えばキーワードは、GUI(Graphical User Interface:グラフィカルユーザインターフェース)による表示データとして出力され、また、知識データは、ファイルとしてメモリに格納される。
【0092】
図6は、GUIによるキーワード等の表示例を説明する図である。
図2の知識データ生成装置1に備えた図示しないメモリには、フレーム毎に(フレームを単位とした時間毎に)、コンテンツを構成する画像データ、音声処理部11-1等により生成されたキーワード、画像物体処理部11-2により認識された物体を含む領域、スコアが最大のキーワード等が格納されているものとする。
【0093】
知識データ生成装置1に備えた図示しない表示部は、メモリから、ユーザにより指定された時間(
図6に示す指定時間(c1))に対応するフレームについての画像データ等を読み出す。また、表示部は、メモリに格納されたフレーム毎のキーワードに基づいて、所定の時間範囲におけるフレーム毎に、キーワードの有無を判断する。そして、表示部は、画像データ、キーワードの有無のデータ等の画面を、表示装置に表示する。
【0094】
図6の画面の下部には、所定の時間範囲において、文字、物体、音声及び字幕についてのキーワードが生成された時間帯が横バーとして表示されている(c2)。横軸は時間を示す。また、ユーザにより指定された時間を指定時間として、縦線が示されている(c1)。「スキー」は、ユーザによる指定時間c1に対応するフレームにおいて、スコアが最大のキーワードである(c3)。
【0095】
図6の画面の左上部には、ユーザによる指定時間c1に対応するフレームについて、画像データa1が表示され、当該画像データa1内に、画像データに対する物体認識処理により検出された物体を含む領域a2,a3,a4が表示されている。画像物体処理部11-2により、この領域a2,a3,a4に含まれる物体の名称がキーワードとして求められる。
【0096】
図6の画面に右上部には、ユーザによる指定時間c1に対応するフレームについて、スコアが最大のキーワードとして「スキー」が表示され(b1)、文字及び音声についてはキーワードが生成されなかったことを示す「×」、物体及び字幕についてはキーワードが生成されたことを示す「●」が表示されている(b2)。また、音声データに対する音声認識処理により検出された文章の文字列「考え 信じ」が表示され(b3)、字幕データに対する形態素解析処理により検出された文章の文字列「スキーに生きると考えたのです。」が表示されている(b4)。
【0097】
以上のように、知識データ生成装置1の実施例1の処理によれば、データ処理部11は、放送番組コンテンツを構成するマルチモーダルな音声データ、画像データ及び字幕データを用いて、それぞれ音声データに対する音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理及び形態素解析処理、並びに、字幕データに対する形態素解析処理にて、各処理に応じた1または複数のキーワードを求める。
【0098】
スコア算出部13は、処理毎の重みを用いて、各処理に応じた1または複数のキーワードをスコア化し、同一のキーワード毎に、各処理を統合した1フレームのスコアを求める。
【0099】
キーワード選択部14は、複数のキーワードのうち、スコアが最大のキーワードを選択し、コンテンツ情報及び選択したキーワードを、知識データとして生成する。
【0100】
これにより、例えば1つのコンテンツにおいて、この知識データを用いて、当該コンテンツにおけるフレーム間のマッチングが行われることで、ユーザは、コンテンツ内の1つのフレームを基準にして、当該フレームに関連するフレームを得ることができる。また、この知識データを用いることで、様々なコンテンツの連携を実現することができ、ユーザに対し、精度の高いコンテンツを検索して提示することができる。
【0101】
〔実施例2〕
次に、
図2に示した知識データ生成装置1による実施例2の処理について説明する。実施例2は、放送番組コンテンツの動画像について、マルチモーダルなデータを用いてキーワードを求め、キーワードをスコア化してNフレームのスコアを求め、複数のキーワードのうちNフレームのスコアが最大のキーワードを選択することで、知識データを生成する。スコアが最大のキーワードは、Nフレームのスコアに基づいて選択されるため、フレーム毎のスコアのバラツキを吸収することができ、結果として、精度の高い知識データを得ることができる。
【0102】
図7は、入力部10、データ処理部11及びスコア算出部13による実施例2の処理例を示すフローチャートである。
【0103】
ステップS701の処理は、
図3のステップS301~S313の処理と同様であるため、ここでは説明を省略する。
【0104】
これにより、放送番組コンテンツの動画像における1フレームにつき、音声認識処理、画像データからの物体認識処理、画像データからの文字認識処理等、及び字幕解析処理により得られたそれぞれの1または複数のキーワードが、リスト化された状態でメモリ12に格納される。また、放送番組コンテンツの動画像における1フレームにつき、同一のキーワード毎に、各処理を統合した1フレームのスコアがメモリ12に格納される。
【0105】
スコア算出部13は、ステップS701から移行して、キーワード毎に、メモリ12から1フレームのスコアを取得し(読み出し)、1フレーム前までの合計スコアに当該1フレームのスコアを加算することで、当該フレームまでの合計スコア(nフレームの合計スコア)を求める(ステップS702)。nは、今回のフレームの番号を示す。
【0106】
尚、スコア算出部13は、ステップS702において、初期処理の際に、1フレーム前までの合計スコアを0として扱う。
【0107】
スコア算出部13は、Nフレーム分の処理が完了したか否かを判定する(ステップS703)。スコア算出部13は、ステップS703において、Nフレーム分の処理が完了していないと判定した場合(ステップS703:N)、ステップS701へ移行する。前述のとおり、Nは2以上の整数である。
【0108】
これにより、ステップS701において、次のフレームについての処理が行われ、同一のキーワード毎に、各処理を統合した1フレームのスコアがメモリ12に格納され、ステップS702において、同一のキーワード毎に、当該フレームまでの合計スコアが算出される。
【0109】
一方、スコア算出部13は、ステップS703において、Nフレーム分の処理が完了したと判定した場合(ステップS703:Y)、キーワード毎に、最初のフレームから数えてN個の連続するフレームのスコアの加算結果である合計スコアを、Nフレームの合計スコアとしてメモリ12に格納する(ステップS704)。
【0110】
図8は、スコア算出部13による実施例2のスコア算出例を説明する図である。
図8には、第(n-x)番目、第(n-3)番目、第(n-2)番目、第(n-1)番目、第n番目(現在)等のフレームについて、
図7のステップS701の処理により算出されたキーワード毎の1フレームのスコアが示されている。
【0111】
例えば、第n番目のフレームについて、「スキー」のキーワードのスコアは3.2、「スノーボード」のキーワードのスコアは0.5、「スケートボード」「卓球」のキーワードのスコアは0.8である。
【0112】
スコア算出部13により、「スキー」のキーワードについて、最初のフレームから数えてN個のフレームのスコアの加算結果115.5が、Nフレームの合計スコアとして得られる。同様に、「スノーボード」のキーワードについて、最初のフレームから数えてN個のフレームのスコアの結果45.2が、Nフレームの合計スコアとして得られる。「ボール」「スケートボード」等についても、Nフレームの合計スコアが得られる。
【0113】
尚、「凧」等のキーワードについては、Nフレームの合計スコアは0である。これらのキーワードは、メモリ12に予め設定されたものである。
【0114】
図9は、キーワード選択部14による実施例2の処理例を示すフローチャートである。キーワード選択部14は、メモリ12から、キーワードに対応するNフレームの合計スコアを取得する(読み出す)(ステップS901)。
【0115】
キーワード選択部14は、当該キーワードについて、Nフレームの合計スコアが最大値よりも大きいか否かを判定する(ステップS902)。尚、最大値は、初期値として0が設定されているものとする。
【0116】
キーワード選択部14は、ステップS902において、Nフレームの合計スコアが最大値よりも大きいと判定した場合(ステップS902:Y)、当該Nフレームの合計スコアを最大値に設定することで、最大値を更新し(ステップS903)、ステップS904へ移行する。
【0117】
一方、キーワード選択部14は、ステップS902において、Nフレームの合計スコアが最大値よりも大きくないと判定した場合(ステップS902:N)、ステップS904へ移行する。
【0118】
キーワード選択部14は、ステップS903またはステップS902(N)から移行して、全てのキーワード(メモリ12に格納されている全てのキーワード)についての処理が完了したか否かを判定する(ステップS904)。
【0119】
キーワード選択部14は、ステップS904において、全てのキーワードについての処理が完了していないと判定した場合(ステップS904:N)、ステップS901へ移行し、メモリ12から、次のキーワードに対応するNフレームの合計スコアを読み出す。そして、キーワード選択部14は、ステップS902,S903の処理を行う。
【0120】
一方、キーワード選択部14は、ステップS904において、全てのキーワードについての処理が完了したと判定した場合(ステップS904:Y)、メモリ12に格納された複数のキーワードのうち、合計スコアが最大のキーワード(ステップS903にて最後に最大値を更新したときのNフレームの合計スコアに対応するキーワード)を選択する(ステップS905)。
図8に示したスコア算出例においては、キーワード選択部14により、Nフレームの合計スコアが最大(115.5)である「スキー」のキーワードが選択される。
【0121】
キーワード選択部14は、コンテンツ情報、及びステップS905にて選択したキーワードを知識データとして出力する(ステップS906)。例えばキーワードは、GUIによる表示データとして出力され、また、知識データは、ファイルとしてメモリに格納される。
【0122】
以上のように、知識データ生成装置1の実施例2の処理によれば、データ処理部11は、放送番組コンテンツを構成するマルチモーダルな音声データ、画像データ及び字幕データを用いて、それぞれ音声データに対する音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理及び形態素解析処理、並びに、字幕データに対する形態素解析処理にて、各処理に応じた1または複数のキーワードを求める。
【0123】
スコア算出部13は、処理毎の重みを用いて、各処理に応じた1または複数のキーワードをスコア化し、キーワード毎に、各処理を統合したNフレームの合計スコアを求める。
【0124】
キーワード選択部14は、複数のキーワードのうち、合計スコアが最大のキーワードを選択し、コンテンツ情報及び選択したキーワードを、知識データとして生成する。
【0125】
これにより、例えば複数のコンテンツにおいて、この知識データを用いてコンテンツ間のマッチングが行われることで、ユーザは、関連するコンテンツを得ることができる。また、例えば1つのコンテンツにおいて、この知識データを用いて複数の連続するフレーム間のマッチングが行われることで、関連する複数の連続するフレームを得ることができる。したがって、この知識データを用いることで、様々なコンテンツの連携を実現することができ、ユーザに対し、精度の高いコンテンツを検索して提示することができる。
【0126】
また、
図3~
図5に示した実施例1では、1フレームのスコアに基づいてキーワードを選択するが、この実施例2では、Nフレームの合計スコアに基づいてキーワードを選択する。これにより、フレーム毎のスコアのバラツキが、選択されるキーワードへ反映されることを回避することができ、精度の高い知識データを得ることができる。結果として、様々なコンテンツの連携を精度高く実現することができ、また、一層精度の高いコンテンツの検索を実現することができる。
【0127】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0128】
例えば
図2に示した知識データ生成装置1では、放送番組コンテンツを構成する音声データ、画像データ及び字幕データを用いて、知識データを生成するようにした。これに対し、知識データ生成装置1は、これらのデータのうちの任意の2つのデータを用いて、知識データを生成するようにしてもよい。また、知識データ生成装置1は、音声データ、画像データ及び字幕データ以外のデータ(2つ以上の所定数のデータ)を用いて、知識データを生成するようにしてもよい。つまり、知識データ生成装置1は、コンテンツを構成するマルチモーダルなデータを用いて知識データを生成することができれば、データの種類は何でもよい。
【0129】
また、
図2に示した知識データ生成装置1のデータ処理部11は、音声データに対する音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理及び形態素解析処理、並びに、字幕データに対する形態素解析処理を行い、各処理に応じた1または複数のキーワードを求めるようにした。本発明は、音声データ等に対する処理をこれらの処理に限定するものではなく、他の処理を行うようにしてもよい。コンテンツを構成するデータに対する処理によって、1または複数のキーワードを求めることができれば、当該処理は何でもよい。
【0130】
また、データ処理部11は、キーワードを求める際に、複数のキーワードが予め格納されたテーブルを利用するようにしてもよい。例えば、データ処理部11は、音声データに対する音声認識処理に応じて仮のキーワードを求め、仮のキーワードのスコア値及びテーブルに格納されたキーワードのスコア値を比較することで、テーブルから当該仮のキーワードに最も近い1または複数のキーワードを読み出し、読み出したキーワードをメモリ12に格納する。このテーブルは、音声データに対する音声認識処理、画像データに対する物体認識処理等の処理毎に備えるようにしてもよい。
【0131】
また、知識データ生成装置1により、例えば教育分野の知識データが生成される場合、このテーブルは、学年別のものであってもよい。例えば、中学1年生用のコンテンツ検索のための知識データが生成される場合、テーブルには、中学1年生に適用するキーワードが格納されている。また、このテーブルは、ジャンル別(科目(国語、算数等)別)のものであってもよい。
【0132】
データ処理部11は、キーワードを求める際に、学年別またはジャンル別のテーブルを用いて、キーワードを求めるようにしてもよいし、学年別及びジャンル別のテーブルを用いて、キーワードを求めるようにしてもよい。後者の場合、データ処理部11は、学年別及びジャンル別の両方のテーブルに格納された同一のキーワードを対象にして、前述のスコア値を比較する等して、キーワードを求める。
【0133】
また、知識データ生成装置1により、生涯教育用の知識データが生成される場合、このテーブルは、年代別のものであってもよい。
【0134】
尚、本発明の実施形態による知識データ生成装置1のハードウェア構成としては、通常のコンピュータを使用することができる。知識データ生成装置1は、CPU等、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
【0135】
知識データ生成装置1に備えた入力部10、データ処理部11(音声処理部11-1、画像物体処理部11-2、画像文字処理部11-3及び字幕処理部11-4)、メモリ12、スコア算出部13及びキーワード選択部14の各機能は、これらの機能を記述したプログラムをCPU等に実行させることによりそれぞれ実現される。
【0136】
これらのプログラムは、前記記憶媒体に格納されており、CPU等に読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0137】
1 知識データ生成装置
2,2-1,2-2,2-3 外部データ
3,3-1,3-2 放送局データ
4,4-1,4-2,4-3 ユーザ端末
10 入力部
11 データ処理部
11-1 音声処理部
11-2 画像物体処理部
11-3 画像文字処理部
11-4 字幕処理部
12 メモリ
13 スコア算出部
14 キーワード選択部