(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024046549
(43)【公開日】2024-04-03
(54)【発明の名称】知識データ生成装置及びプログラム
(51)【国際特許分類】
G06F 16/78 20190101AFI20240327BHJP
G06F 16/90 20190101ALI20240327BHJP
【FI】
G06F16/78
G06F16/90 100
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022151989
(22)【出願日】2022-09-22
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1)令和4年2月21日に2022年電子情報通信学会総合大会のウェブサイトにて掲載 (2)令和3年12月1日に2021年映像情報メディア学会冬季大会講演予稿集にて発表
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】藤津 智
(72)【発明者】
【氏名】小松 佑人
(72)【発明者】
【氏名】藤井 翔子
(72)【発明者】
【氏名】松村 欣司
(72)【発明者】
【氏名】藤沢 寛
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA04
5B175FB02
(57)【要約】
【課題】様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成する。
【解決手段】知識データ生成装置1Aのデータ処理部11は、コンテンツを構成する音声データ、画像データ及び字幕データを用いて、フレーム毎にキーワードを求める。スコア算出部13は、キーワードをスコア化し、同一のキーワード毎に、統合した1フレームのスコアを求め、キーワード選択部14は、全てのフレームのそれぞれについて、スコアが最大のキーワードを選択する。字幕付与部15は、キーワードに紐付いた字幕データを、画像付与部16及びシーン時刻付与部17は、キーワードに紐付いた画像データ及びシーンの時刻情報をそれぞれ取得する。RDF生成部18は、コンテンツ情報、キーワード、並びにキーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報からなる知識データをRDFデータに変換し、DB登録部19に登録する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
コンテンツに関するキーワードを求め、前記キーワードに基づいて所望のコンテンツを検索する際に用いる知識データを生成する知識データ生成装置において、
前記コンテンツは、字幕データを含む複数種類のデータにより構成されるものとして、
前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から1または複数のキーワードを求めるデータ処理部と、
前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部と、
前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、当該キーワードを選択キーワードとするキーワード選択部と、
前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記字幕データについて求めた前記キーワードと一致する場合、前記字幕データを、前記選択キーワードに紐付いた字幕データとして、前記選択キーワードに付与する字幕付与部と、
前記コンテンツの識別情報、前記選択キーワード、及び前記字幕付与部により付与された前記選択キーワードに紐付いた字幕データを前記知識データとし、前記知識データを所定の構造化データに変換する構造化データ生成部と、
前記構造化データ生成部により変換された前記構造化データをDBに登録するDB登録部と、
を備えたことを特徴とする知識データ生成装置。
【請求項2】
コンテンツに関するキーワードを求め、前記キーワードに基づいて所望のコンテンツを検索する際に用いる知識データを生成する知識データ生成装置において、
前記コンテンツは、画像データを含む複数種類のデータにより構成されるものとして、
前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から1または複数のキーワードを求めるデータ処理部と、
前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部と、
前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、当該キーワードを選択キーワードとするキーワード選択部と、
前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記画像データについて求めた前記キーワードと一致する場合、前記画像データを、前記選択キーワードに紐付いた画像データとして、前記選択キーワードに付与する画像付与部と、
前記コンテンツの識別情報、前記選択キーワード、前記画像付与部により付与された前記選択キーワードに紐付いた画像データを前記知識データとし、前記知識データを所定の構造化データに変換する構造化データ生成部と、
前記構造化データ生成部により変換された前記構造化データをDBに登録するDB登録部と、
を備えたことを特徴とする知識データ生成装置。
【請求項3】
請求項1に記載の知識データ生成装置において、
前記コンテンツは、前記字幕データに加え、画像データを含む複数種類のデータにより構成されるものとして、
さらに、前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記画像データについて求めた前記キーワードと一致する場合、前記画像データを、前記選択キーワードに紐付いた画像データとして、前記選択キーワードに付与する画像付与部と、
前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記画像データについて求めた前記キーワードと一致する場合、前記選択キーワードが一致する前記画像データの連続する複数のフレームにつき、最初のフレームの時刻を示す開始時刻及び最後のフレームの時刻を示す終了時刻を、前記選択キーワードに紐付いたシーンの時刻情報として、前記選択キーワードに付与するシーン時刻付与部と、を備え、
前記構造化データ生成部は、
前記コンテンツの識別情報、前記選択キーワード、前記字幕付与部により付与された前記選択キーワードに紐付いた字幕データ、前記画像付与部により付与された前記選択キーワードに紐付いた画像データ、及び前記シーン時刻付与部により付与された前記選択キーワードに紐付いたシーンの時刻情報を前記知識データとし、前記知識データを前記所定の構造化データに変換する、ことを特徴とする知識データ生成装置。
【請求項4】
請求項1から3までのいずれか一項に記載の知識データ生成装置において、
前記コンテンツを、教育分野の学習用のコンテンツとして、
さらに、前記コンテンツの識別情報に基づいて、学習指導要領コードを検索するコード検索部と、
前記コード検索部により検索された前記学習指導要領コードに基づいて、前記コンテンツに関連するコンテンツの識別情報を検索する関連コンテンツ検索部と、
前記構造化データ生成部は、
前記知識データに、前記コード検索部により検索された前記学習指導要領コード、及び前記関連コンテンツ検索部により検索された前記関連するコンテンツの識別情報を加えた新たな知識データを、前記所定の構造化データに変換する、ことを特徴とする知識データ生成装置。
【請求項5】
コンテンツに関するキーワードを求め、前記キーワードに基づいて所望のコンテンツを検索する際に用いる知識データを生成する知識データ生成装置を構成するコンピュータを、
前記コンテンツは、字幕データを含む複数種類のデータにより構成されるものとして、
前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から1または複数のキーワードを求めるデータ処理部、
前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部、
前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、当該キーワードを選択キーワードとするキーワード選択部、
前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記字幕データについて求めた前記キーワードと一致する場合、前記字幕データを、前記選択キーワードに紐付いた字幕データとして、前記選択キーワードに付与する字幕付与部、
前記コンテンツの識別情報、前記選択キーワード、及び前記字幕付与部により付与された前記選択キーワードに紐付いた字幕データを前記知識データとし、前記知識データを所定の構造化データに変換する構造化データ生成部、及び、
前記構造化データ生成部により変換された前記構造化データをDBに登録するDB登録部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツを検索するためのデータベースを生成する技術に関する。
【背景技術】
【0002】
従来、コンテンツ同士を意味的に結び付けることでコンテンツを連携させ、ユーザの所望するコンテンツを提示する技術の開発が進められている。コンテンツを連携させる技術とは、コンテンツ同士を繋げる技術である。
【0003】
例えば教育分野において、ユーザによる自発的な学習を補助するために、現在使用しているコンテンツに関連するコンテンツを提示する手法が開示されている(例えば、特許文献1及び非特許文献1を参照)。
【0004】
一般に、指導者がユーザの習熟度を完全にかつ適切に把握することは困難であり、ユーザ自身の習熟度に合わせて、ユーザの自発的な学習が求められる。一方で、学習に使用するコンテンツも電子教材の普及に伴い、多種多様なものが作られている。
【0005】
ユーザは、自学自習する際に、多様なコンテンツの中から自分に合ったものを検索する必要があり、習熟度に応じたコンテンツ検索方法が所望されていた。つまり、ユーザの自発的な学習を補助するために、現在の学習に使用しているコンテンツから、これに関連するコンテンツを提示することが可能な手法が所望されていた。
【0006】
このような手法の例として、特許文献1には、学習指導要領を元に学習領域を定め、その中から学年、教科及び教科書単元に基づいて、レコメンド教材のコンテンツをユーザへ提示する手法が開示されている。
【0007】
また、非特許文献1には、教科書に記載されている各単元の導入部に基づいて、学習順序及び学習系統を構造化し、構造化されたデータを用いてユーザに学習支援を行う手法が開示されている。
【0008】
このようなコンテンツ提示手法は、ユーザの学習に対する習熟度の差が大きいという状況を考慮したものである。例えば、一斉授業のような画一的な教育方法では、ユーザの習熟度に合った教育を提供することができないため、このようなコンテンツ提示手法が用いられる。
【先行技術文献】
【特許文献】
【0009】
【非特許文献】
【0010】
【非特許文献1】後藤隆友、“オントロジーに基づく数学教育支援システムの提案”、電子情報通信学会技術研究報告、ET、教育工学 105(581)、7-12、2006
【発明の概要】
【発明が解決しようとする課題】
【0011】
しかしながら、前述の特許文献1に記載された学習指導要領を元にコンテンツを提示する手法、及び前述の非特許文献1に記載された学習順序を元にコンテンツを提示する手法では、ユーザは、現在の学習に使用しているコンテンツに関連するコンテンツとして、教材以外のコンテンツ(例えば放送番組コンテンツ)の提示を受けることが難しい。
【0012】
つまり、前述の手法では、学習指導要領等に関連する領域及びこれに近接した領域のコンテンツが提示されることとなり、提示されるコンテンツの領域が限定されてしまう。
【0013】
また、前述の手法では、ユーザがコンテンツの提示を受けた後に、引き続きコンテンツの提示を受けるためには、データを再入力する必要があり、人手及び作業時間のコストがかかってしまう。
【0014】
ここで、ユーザは、教材のコンテンツに加え、教材以外の例えば放送番組コンテンツの提示を受けることができれば、効果的な学習を実現できることが期待される。
【0015】
このような効果的な学習を実現するために、教材以外の様々な領域のコンテンツも提示可能とするデータベースの構築が必要となる。
【0016】
教育分野だけでなく、教育以外の分野においても、現在使用しているコンテンツに関連するコンテンツを、様々な領域から検索して提示するためには、コンテンツ同士を連携させるデータベースの構築を自動化する必要がある。
【0017】
このような課題を解決するために、本件特許出願時に未公開の特願2021-184993号公報に記載された発明が、本件特許出願と同一の出願人により出願された。この発明は、音声データ及び字幕データから複数のキーワードを抽出すると共に、画像データから得られた物体及び文字から複数のキーワードを抽出し、これらのキーワードのスコア化により、コンテンツに紐付く最高スコアのキーワードを決定するものである。
【0018】
しかしながら、この発明では、ユーザに対して、必ずしも効果的なお薦めコンテンツ及び関連コンテンツを提示できるとは限らない。
【0019】
つまり、この発明では、キーワードに基づいてお薦めコンテンツ及び関連コンテンツが検索され提示されるため、これらのコンテンツはそのキーワードの影響を受けたもののみとなり、限定されてしまう。このため、ユーザは、最高スコアのキーワードに対応するコンテンツの提示を受けることができるが、その効果が十分ではないという問題があった。
【0020】
また、この発明では、ユーザがコンテンツの提示を受けた後に、例えばこれに紐付いて関連する字幕データ及び画像データ(サムネイル等)を提示することができない。これを実現するためには、データを再確認する必要があり、人手及び作業時間のコストがかかってしまうという問題があった。
【0021】
ここで、キーワード以外の字幕データ及び画像データもコンテンツに紐付けることに加え、前述の教育分野の例では、キーワードから例えば学習指導要領コードを用いてコンテンツを検索できることが望ましい。これは、ユーザが、例えば学習指導要領に基づく関連の放送番組コンテンツの提示を受けることにより、効果的な学習を実現できることが期待されるからである。尚、キーワードには、文字データだけでなく、英数記号、画像、図形、色等が含まれ、日本語以外の言語も含まれる。
【0022】
このような効果的な学習を実現するために、様々なデータと紐付いたコンテンツを提示可能とするデータベースの構築が必要となる。
【0023】
教育分野だけでなく、教育以外の分野においても、現在使用しているコンテンツに関連するコンテンツを、様々な領域から検索して提示するためには、様々なデータと紐付くコンテンツ同士を連携させるデータベースを構築する必要がある。構築したデータベースを用いることにより、様々な領域のコンテンツの連携が実現され、ユーザは、精度の高い所望のコンテンツを検索することができる。以下、コンテンツ同士を連携するために用いるデータを「知識データ」という。
【0024】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成する知識データ生成装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0025】
前記課題を解決するために、請求項1の知識データ生成装置は、コンテンツに関するキーワードを求め、前記キーワードに基づいて所望のコンテンツを検索する際に用いる知識データを生成する知識データ生成装置において、前記コンテンツが、字幕データを含む複数種類のデータにより構成されるものとして、前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から1または複数のキーワードを求めるデータ処理部と、前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部と、前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、当該キーワードを選択キーワードとするキーワード選択部と、前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記字幕データについて求めた前記キーワードと一致する場合、前記字幕データを、前記選択キーワードに紐付いた字幕データとして、前記選択キーワードに付与する字幕付与部と、前記コンテンツの識別情報、前記選択キーワード、及び前記字幕付与部により付与された前記選択キーワードに紐付いた字幕データを前記知識データとし、前記知識データを所定の構造化データに変換する構造化データ生成部と、前記構造化データ生成部により変換された前記構造化データをDBに登録するDB登録部と、を備えたことを特徴とする。
【0026】
また、請求項2の知識データ生成装置は、コンテンツに関するキーワードを求め、前記キーワードに基づいて所望のコンテンツを検索する際に用いる知識データを生成する知識データ生成装置において、前記コンテンツが、画像データを含む複数種類のデータにより構成されるものとして、前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から1または複数のキーワードを求めるデータ処理部と、前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部と、前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、当該キーワードを選択キーワードとするキーワード選択部と、前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記画像データについて求めた前記キーワードと一致する場合、前記画像データを、前記選択キーワードに紐付いた画像データとして、前記選択キーワードに付与する画像付与部と、前記コンテンツの識別情報、前記選択キーワード、前記画像付与部により付与された前記選択キーワードに紐付いた画像データを前記知識データとし、前記知識データを所定の構造化データに変換する構造化データ生成部と、前記構造化データ生成部により変換された前記構造化データをDBに登録するDB登録部と、を備えたことを特徴とする。
【0027】
また、請求項3の知識データ生成装置は、請求項1に記載の知識データ生成装置において、前記コンテンツが、前記字幕データに加え、画像データを含む複数種類のデータにより構成されるものとして、さらに、前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記画像データについて求めた前記キーワードと一致する場合、前記画像データを、前記選択キーワードに紐付いた画像データとして、前記選択キーワードに付与する画像付与部と、前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記画像データについて求めた前記キーワードと一致する場合、前記選択キーワードが一致する前記画像データの連続する複数のフレームにつき、最初のフレームの時刻を示す開始時刻及び最後のフレームの時刻を示す終了時刻を、前記選択キーワードに紐付いたシーンの時刻情報として、前記選択キーワードに付与するシーン時刻付与部と、を備え、前記構造化データ生成部が、前記コンテンツの識別情報、前記選択キーワード、前記字幕付与部により付与された前記選択キーワードに紐付いた字幕データ、前記画像付与部により付与された前記選択キーワードに紐付いた画像データ、及び前記シーン時刻付与部により付与された前記選択キーワードに紐付いたシーンの時刻情報を前記知識データとし、前記知識データを前記所定の構造化データに変換する、ことを特徴とする。
【0028】
また、請求項4の知識データ生成装置は、請求項1から3までのいずれか一項に記載の知識データ生成装置において、前記コンテンツを、教育分野の学習用のコンテンツとして、さらに、前記コンテンツの識別情報に基づいて、学習指導要領コードを検索するコード検索部と、前記コード検索部により検索された前記学習指導要領コードに基づいて、前記コンテンツに関連するコンテンツの識別情報を検索する関連コンテンツ検索部と、前記構造化データ生成部が、前記知識データに、前記コード検索部により検索された前記学習指導要領コード、及び前記関連コンテンツ検索部により検索された前記関連するコンテンツの識別情報を加えた新たな知識データを、前記所定の構造化データに変換する、ことを特徴とする。
【0029】
さらに、請求項5のプログラムは、コンテンツに関するキーワードを求め、前記キーワードに基づいて所望のコンテンツを検索する際に用いる知識データを生成する知識データ生成装置を構成するコンピュータを、前記コンテンツは、字幕データを含む複数種類のデータにより構成されるものとして、前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から1または複数のキーワードを求めるデータ処理部、前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部、前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、当該キーワードを選択キーワードとするキーワード選択部、前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記字幕データについて求めた前記キーワードと一致する場合、前記字幕データを、前記選択キーワードに紐付いた字幕データとして、前記選択キーワードに付与する字幕付与部、前記コンテンツの識別情報、前記選択キーワード、及び前記字幕付与部により付与された前記選択キーワードに紐付いた字幕データを前記知識データとし、前記知識データを所定の構造化データに変換する構造化データ生成部、及び、前記構造化データ生成部により変換された前記構造化データをDBに登録するDB登録部として機能させることを特徴とする。
【発明の効果】
【0030】
以上のように、本発明によれば、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成することができる。
【図面の簡単な説明】
【0031】
【
図1】実施例1,2による知識データ生成装置を用いた全体システムの概要を説明する図である。
【
図2】実施例1の知識データ生成装置の構成例を示すブロック図である。
【
図3】実施例1の知識データ生成装置の処理例を示すフローチャートである。
【
図4】入力部、データ処理部及びスコア算出部の処理例(ステップS301~S303)を示すフローチャートである。
【
図5】メモリに格納された処理種類毎のキーワードの例(ステップS412)を示す図である。
【
図6】スコア算出部によるスコア算出例(ステップS413)を示す図である。
【
図7】メモリに格納されたキーワード毎のスコアの例(ステップS413)を示す図である。
【
図8】キーワード選択部の処理例(ステップS304)を示すフローチャートである。
【
図9】字幕付与部の処理例(ステップS305)を示すフローチャートである。
【
図10】画像付与部の処理例(ステップS306)を示すフローチャートである。
【
図11】シーン時刻付与部の処理例(ステップS307)を示すフローチャートである。
【
図12】シーン時刻付与部から出力されるコンテンツ情報等のデータ例(ステップS1105)を示す図である。
【
図13】RDFデータの記述例を説明する図である。
【
図14】実施例2の知識データ生成装置の構成例を示すブロック図である。
【
図15】実施例2の知識データ生成装置の処理例を示すフローチャートである。
【
図16】コード検索部の処理例(ステップS1508)を示すフローチャートである。
【
図17】コード検索部が用いるテーブルのデータ構成例を示す図である。
【
図18】関連コンテンツ検索部の処理例(ステップS1509)を示すフローチャートである。
【
図19】関連コンテンツ検索部が用いるテーブルのデータ構成例を示す図である。
【発明を実施するための形態】
【0032】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔本発明の概要〕
まず、本発明の概要について説明する。本発明は、コンテンツを構成する複数種類のマルチモーダルなデータを用いて、コンテンツとその他の様々なコンテンツとの間を繋げるために用いる知識データを生成するものである。
【0033】
図1は、実施例1,2による知識データ生成装置を用いた全体システムの概要を説明する図である。このシステムは、知識データ生成装置1(後述する実施例1の知識データ生成装置1A及び実施例2の知識データ生成装置1B)、所定分野の領域のデータベース(DB)からなる外部データ2-1、図書館データ(図書館が管理しているデータ)のコンテンツからなる外部データ2-2、及び博物館データ(博物館が管理しているデータ)のコンテンツからなる外部データ2-3等、番組情報の放送番組コンテンツからなる放送局データ3-1、及びニュースの放送番組コンテンツからなる放送局データ3-2等、並びに、ユーザ端末4-1,4-2,4-3等を備えて構成される。
【0034】
知識データ生成装置1は、例えば放送局データ3-1から、放送番組コンテンツを構成する音声データ、画像データ及び字幕データを入力し、これらの複数種類のマルチモーダルなデータを用いて、当該放送番組コンテンツを表す最適な意味合いの語彙をキーワードとして求める。そして、知識データ生成装置1は、放送番組コンテンツを構成する画像データ及び字幕データから、キーワードに紐付いた画像データ等を取得する等して、当該放送番組コンテンツを識別するための情報(コンテンツID)等のコンテンツ情報、キーワード、画像データ等からなる構造化された知識データを生成する。
【0035】
知識データ生成装置1は、放送局データ3-1,3-2等、外部データ2-1,2-2,2-3等のコンテンツを用いて知識データを生成することで、知識データのDBを構築する。
【0036】
ユーザ端末4-1,4-2,4-3等を操作するユーザは、例えば放送局データ3-1における健康番組の放送番組コンテンツを視聴しているときに、当該放送番組コンテンツから選定したキーワード、画像データ等により、知識データのDBを用いた検索を行う。
【0037】
例えば、ユーザ端末4-1を操作するユーザは、「DNA診断」に関連するコンテンツの取得を希望する場合、知識データのDBを用いた検索が行われることで、放送局データ3-2から「がんのDNA診断」のコンテンツ等を取得する。また、ユーザ端末4-2を操作するユーザは、放送局データ3-1から「生物DNAの構造」のコンテンツ、外部データ2-3から「人体II遺伝子」のコンテンツ等を取得する。
【0038】
このように、知識データを用いることで、様々な分野のコンテンツ(外部データ2-1,2-2,2-3等及び放送局データ3-1,3-2等のコンテンツ)を繋げることができ、ユーザに対し、所望のコンテンツをレコメンドすることができる。また、ユーザの興味関心を広げた形で、コンテンツを提示することができる。
【0039】
つまり、知識データ生成装置1により、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成することができる。以下、外部データ2-1,2-2,2-3等を総称して外部データ2といい、放送局データ3-1,3-2等を総称して放送局データ3という。
【0040】
尚、
図1では、外部データ2の例として所定分野の領域のデータ、図書館データ及び博物館データを示したが、外部データ2には、WEBページの情報、SNSの情報、アプリ情報、産学官から提供される様々なオープンデータ等が含まれる。また、放送局データ3の例として番組情報及びニュースを示したが、放送局データ3には、災害情報、取材情報、広報情報、イベント情報等が含まれる。さらに、放送局データ3には、これらの情報と組み合わせたWEBページの情報、SNSの情報、アプリ情報等が含まれる。
【0041】
〔実施例1/知識データ生成装置1A〕
まず、実施例1の知識データ生成装置1Aについて説明する。実施例1の知識データ生成装置1Aは、コンテンツに含まれる音声データ、画像データ及び字幕データを用いて複数のキーワードを求め、キーワード毎のスコアを算出し、複数のキーワードのうちスコアが最大のキーワードを選択し、キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報等を知識データとし、知識データをRDF(Resource Description Framework)データに変換するものである。
【0042】
図2は、実施例1の知識データ生成装置1Aの構成例を示すブロック図であり、
図3は、実施例1の知識データ生成装置1Aの処理例を示すフローチャートである。
【0043】
知識データ生成装置1Aは、入力部10、データ処理部11、メモリ12、スコア算出部13、キーワード選択部14、字幕付与部15、画像付与部16、シーン時刻付与部17、RDF生成部(構造化データ生成部)18及びDB登録部19を備えている。データ処理部11は、音声処理部11-1、画像物体処理部11-2、画像文字処理部11-3及び字幕処理部11-4を備えている。
【0044】
入力部10は、外部データ2及び放送局データ3のうち例えば放送局データ3から、放送番組コンテンツを識別するための情報(コンテンツID)等のコンテンツ情報、及び、放送番組コンテンツのデータ(音声データ、画像データ及び字幕データ)を入力する(ステップS301)。そして、入力部10は、コンテンツ情報をキーワード選択部14に出力する。
【0045】
入力部10は、放送番組コンテンツのデータから音声データ、画像データ及び字幕データを抽出し、これらのデータをデータ処理部11に出力する。具体的には、入力部10は、音声データを音声処理部11-1に、画像データを画像物体処理部11-2及び画像文字処理部11-3に、字幕データを字幕処理部11-4にそれぞれ出力する。
【0046】
データ処理部11は、入力部10から音声データ、画像データ及び字幕データを入力し、放送番組コンテンツの動画像のフレーム毎に、これらのマルチモーダルなデータを用いて、放送番組コンテンツを表す最適な意味合いの語彙を、音声認識処理等の処理種類毎のキーワードとして求める(ステップS302)。そして、データ処理部11は、フレーム毎のキーワードをメモリ12に格納する。
【0047】
具体的には、音声処理部11-1は、入力部10から音声データを入力し、フレーム毎に、当該音声データに対して音声認識処理を施し、キーワードを求める。そして、音声処理部11-1は、音声認識処理により求めたフレーム毎のキーワードをメモリ12に格納する。音声データに対する音声認識処理にてキーワードを求める処理は既知であるため、ここでは詳細な説明を省略する。
【0048】
画像物体処理部11-2は、入力部10から画像データを入力し、フレーム毎に、当該画像データに対して物体認識処理を施し、キーワードを求める。そして、画像物体処理部11-2は、画像データに対する物体認識処理により求めたフレーム毎のキーワードをメモリ12に格納する。画像データに対する物体認識処理にてキーワードを求める処理は既知であるため、ここでは詳細な説明を省略する。
【0049】
また、画像物体処理部11-2は、画像付与部16からキーワード(スコアが最大のキーワード)を含む要求を入力すると、当該キーワードに紐付く(対応する)画像データが存在する場合、当該画像データを画像付与部16に出力する。
【0050】
ここで、キーワードに紐付く画像データとは、放送番組コンテンツの動画像における全てのフレームのうち、画像物体処理部11-2により当該キーワードであるスコアが最大のキーワードを求めた際に用いた1または複数のフレームである。
【0051】
また、画像物体処理部11-2は、シーン時刻付与部17からキーワード(スコアが最大のキーワード)を含む要求を入力すると、当該キーワードに紐付く画像データが存在する場合、当該キーワードに紐付く画像データのシーンの時刻情報(開始時刻及び終了時刻)をシーン時刻付与部17に出力する。
【0052】
ここで、キーワードに紐付く画像データのシーンの時刻情報とは、放送番組コンテンツの動画像における全てのフレームのうち、画像物体処理部11-2により当該キーワードを求めた際に用いた連続する複数のフレームについて、最初のフレームの時刻を示す開始時刻及び最後のフレームの時刻を示す終了時刻である。
【0053】
画像文字処理部11-3は、入力部10から画像データを入力し、フレーム毎に、画像データに対して文字認識処理及び形態素解析処理を施し、キーワードを求める。そして、画像文字処理部11-3は、画像データに対する文字認識処理及び形態素解析処理により求めたフレーム毎のキーワードをメモリ12に格納する。画像データに対する文字認識処理及び形態素解析処理にてキーワードを求める処理は既知であるため、ここでは詳細な説明を省略する。
【0054】
字幕処理部11-4は、入力部10から字幕データを入力し、フレーム毎に、字幕データに対して形態素解析処理を施し、キーワードを求める。そして、字幕処理部11-4は、字幕データに対する形態素解析処理により求めたフレーム毎のキーワードをメモリ12に格納する。字幕データに対する形態素解析処理にてキーワードを求める処理は既知であるため、ここでは詳細な説明を省略する。
【0055】
また、字幕処理部11-4は、字幕付与部15からキーワード(スコアが最大のキーワード)を含む要求を入力すると、当該キーワードに紐付く字幕データが存在する場合、当該字幕データを字幕付与部15に出力する。
【0056】
ここで、キーワードに紐付く字幕データとは、放送番組コンテンツにおける全て字幕データのうち、字幕処理部11-4により当該キーワードを求めた際に用いた字幕データである。
【0057】
これにより、メモリ12には、放送番組コンテンツの動画像のフレーム毎に、音声データに対する音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理及び形態素解析処理(以下、「画像データに対する文字認識処理」という。)、並びに字幕データに対する形態素解析処理(以下、「字幕データに対する字幕解析処理」という。)により得られたそれぞれのキーワードが、リスト化された状態で格納される。
【0058】
尚、データ処理部11は、放送番組コンテンツを構成する音声データ、画像データ及び字幕データのうちの任意の2つのデータを用いて、キーワードを求めるようにしてもよい。また、データ処理部11は、音声データ、画像データ及び字幕データ以外のデータ(例えば文字スーパー)を用いて、キーワードを求めるようにしてもよい。つまり、データ処理部11は、放送番組コンテンツを構成するマルチモーダルなデータを用いてキーワードを求めることができれば、データの種類は何でもよい。
【0059】
また、前述の例では、データ処理部11は、音声データに対する音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理、及び字幕データに対する字幕解析処理を行い、各処理種類に応じたキーワードを求めるようにした。これに対し、データ処理部11は、これらの処理以外の他の処理を行うようにしてもよい。コンテンツを構成するデータに対する処理によってキーワードを求めることができれば、当該処理は何でもよい。また、これらの音声認識処理、物体認識処理、文字認識処理及び字幕解析処理等に用いる解析モジュールは、どのようなモジュールであってもよい。
【0060】
スコア算出部13は、メモリ12から、フレーム毎に、音声認識処理、物体認識処理、文字認識処理及び字幕解析処理により得られたそれぞれのキーワードを読み出す。また、スコア算出部13は、音声認識処理、物体認識処理、文字認識処理及び字幕解析処理についての重み(処理種類毎の重み)を入力する。処理種類毎の重みは予め設定され、ユーザの操作により変更することができる。
【0061】
スコア算出部13は、1フレームにつき、同一のキーワード毎に、音声認識処理、物体認識処理、文字認識処理及び字幕解析処理のそれぞれについて、当該キーワードの個数をカウントする。そして、スコア算出部13は、同一のキーワード毎に、各処理種類のカウント値に重みを乗算することで、各処理種類の乗算結果を求め、各処理種類の乗算結果を加算(マージ)することで、キーワード毎の1フレームのスコアを求める(ステップS303)。スコア算出部13は、同一のキーワード毎に、1フレームのスコアをメモリ12に格納する。
【0062】
これにより、メモリ12には、後述する
図7に示すとおり、フレーム毎に、同一のキーワードのスコア(同一のキーワード毎の各処理種類につき合計したスコア)が格納される。
【0063】
尚、スコア算出部13は、N個の連続するフレーム毎に(Nフレーム毎に)、スコアを集計するようにしてもよい。つまり、スコア算出部13は、メモリ12から、予め設定されたN個の連続するフレームについて、キーワード毎の1フレームのスコアを読み出し、キーワード毎に、N個の連続するフレームのスコアを加算することで、Nフレームのスコアを求める。Nは、2以上の整数である。スコア算出部13は、Nフレームのスコアを、メモリ12に格納する。
【0064】
これにより、ばらつきを抑えたスコアを得ることができ、メモリ12には、Nフレーム毎に、同一のキーワードのスコア(同一のキーワード毎の各処理種類につき合計したスコア)が格納される。また、スコア算出部13によるスコアの計算手法は、これらの手法に限定されるものではなく、他の手法を用いるようにしてもよい。
【0065】
キーワード選択部14は、入力部10からコンテンツ情報を入力すると共に、メモリ12から、キーワード毎に、当該キーワード及び1フレームのスコア(後述する
図7の例を参照)を読み出す。尚、キーワード選択部14は、Nフレーム毎にスコアを集計した場合には、キーワード及びNフレームのスコアを読み出す。
【0066】
キーワード選択部14は、読み出した全てのキーワードのうち、スコアが最大のキーワードを選択する(ステップS304)。そして、キーワード選択部14は、後述する
図7においては当該1フレームを特定するための情報(Nフレーム毎にスコアを集計した場合には当該Nフレームを特定するための情報)を、コンテンツ情報に追加する。
【0067】
キーワード選択部14は、当該放送番組コンテンツを識別するための情報等に加え、当該1フレーム(または当該Nフレーム)を特定するための情報を含むコンテンツ情報、及び(選択された)キーワードを字幕付与部15に出力する。このようにして、全てのフレームのそれぞれについて、フレーム毎に、スコアが最大のキーワードが選択される。
【0068】
字幕付与部15は、フレーム毎に、キーワード選択部14からコンテンツ情報及び(選択された)キーワードを入力し、当該キーワード(スコアが最大のキーワード)に紐付いた字幕データを取得するための要求を、キーワードと共に字幕処理部11-4に出力する。
【0069】
字幕付与部15は、字幕処理部11-4から、当該キーワードに紐付いた字幕データ(当該フレームに対応する字幕データ)を入力すると、字幕データをキーワードに付与する(ステップS305)。そして、字幕付与部15は、コンテンツ情報、(選択された)キーワード、及び当該キーワードに紐付いた字幕データを画像付与部16に出力する。
【0070】
画像付与部16は、字幕付与部15から、フレーム毎に、コンテンツ情報、(選択された)キーワード及び字幕データを入力する。そして、画像付与部16は、当該キーワード(スコアが最大のキーワード)に紐付いた画像データを取得するための要求を、キーワードと共に画像物体処理部11-2に出力する。
【0071】
画像付与部16は、画像物体処理部11-2から、当該キーワードに紐付いた画像データ(当該フレームに対応する画像データ(画像データのフレーム))を入力すると、画像データをキーワードに付与する(ステップS306)。そして、画像付与部16は、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ及び画像データをシーン時刻付与部17に出力する。
【0072】
シーン時刻付与部17は、画像付与部16から、フレーム毎に、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ及び画像データを入力する。そして、シーン時刻付与部17は、当該キーワード(スコアが最大のキーワード)に紐付いた画像データのシーンの時刻情報を取得するための要求を、キーワードと共に画像物体処理部11-2に出力する。
【0073】
シーン時刻付与部17は、画像物体処理部11-2から、当該キーワードに紐付いたシーンの時刻情報を入力すると、シーンの時刻情報をキーワードに付与する(ステップS307)。そして、シーン時刻付与部17は、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報を知識データとして、これらのデータからなる知識データをRDF生成部18に出力する。
【0074】
RDF生成部18は、シーン時刻付与部17から、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報からなる知識データを入力する。そして、RDF生成部18は、例えば知識データをシーン毎に集計し、シーン毎に集計した知識データをRDFデータに変換することで、RDFデータを生成し(ステップS308)、RDFデータをDB登録部19に登録する(ステップS309)。これにより、DB登録部19には、知識データがRDFデータとして登録されることとなる。
【0075】
尚、RDF生成部18は、シーン時刻付与部17から、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ及び画像データからなる知識データを入力する場合もあり、コンテンツ情報、(選択された)キーワード、及び当該キーワードに紐付いた字幕データからなる知識データを入力する場合もあり、コンテンツ情報及びキーワードからなる知識データを入力する場合もある。
【0076】
(入力部10、データ処理部11及びスコア算出部13)
次に、
図2に示した入力部10、データ処理部11及びスコア算出部13の処理について詳細に説明する。
図4は、入力部10、データ処理部11及びスコア算出部13の処理例を示すフローチャートであり、
図3に示したステップS301~S303の処理に対応している。これらの処理は、実施例1だけでなく、後述する実施例2にも適用がある。後述する
図8~
図11についても同様である。
【0077】
入力部10は、例えば放送局データ3から、放送番組コンテンツを構成する音声データ、画像データ及び字幕データ等を入力する(ステップS401,S402,S403)。
【0078】
音声処理部11-1は、ステップS401から移行して、放送番組コンテンツの動画像における1フレームに対応する音声データに対する音声認識処理を行い(ステップS404)、音声認識処理が正常に行われたか否かを判定する(ステップS405)。
【0079】
音声処理部11-1は、ステップS405において、音声認識処理が正常に行われたと判定した場合(ステップS405:Y)、ステップS412へ移行する。一方、音声処理部11-1は、ステップS405において、音声認識処理が正常に行われなかったと判定した場合(ステップS405:N)、当該音声処理部11-1の処理を終了する。
【0080】
画像物体処理部11-2は、ステップS402から移行して、放送番組コンテンツの動画像における1フレームの画像データに対する物体認識処理を行い(ステップS406)、物体認識処理が正常に行われたか否かを判定する(ステップS407)。
【0081】
画像物体処理部11-2は、ステップS407において、物体認識処理が正常に行われたと判定した場合(ステップS407:Y)、ステップS412へ移行する。一方、画像物体処理部11-2は、ステップS407において、物体認識処理が正常に行われなかったと判定した場合(ステップS407:N)、当該画像物体処理部11-2の処理を終了する。
【0082】
画像文字処理部11-3は、ステップS402から移行して、放送番組コンテンツの動画像における1フレームの画像データに対する文字認識処理を行い(ステップS408)、文字認識処理が正常に行われたか否かを判定する(ステップS409)。
【0083】
画像文字処理部11-3は、ステップS409において、文字認識処理が正常に行われたと判定した場合(ステップS409:Y)、ステップS412へ移行する。一方、画像文字処理部11-3は、ステップS409において、文字認識処理が正常に行われなかったと判定した場合(ステップS409:N)、当該画像文字処理部11-3の処理を終了する。
【0084】
字幕処理部11-4は、ステップS403から移行して、放送番組コンテンツの動画像における1フレームに対応する字幕データに対して字幕解析処理を行い(ステップS410)、字幕解析処理が正常に行われたか否かを判定する(ステップS411)。
【0085】
字幕処理部11-4は、ステップS411において、字幕解析処理が正常に行われたと判定した場合(ステップS411:Y)、ステップS412へ移行する。一方、字幕処理部11-4は、ステップS411において、字幕解析処理が正常に行われなかったと判定した場合(ステップS411:N)、当該字幕処理部11-4の処理を終了する。
【0086】
音声処理部11-1、画像物体処理部11-2、画像文字処理部11-3及び字幕処理部11-4は、ステップS405(Y),S407(Y),S409(Y),S411(Y)から移行して、それぞれの処理結果からキーワードを求めてリスト化し、リスト化したキーワード(処理種類毎のキーワード)をメモリ12に格納する(ステップS412)。
【0087】
具体的には、音声処理部11-1は、音声データに対する音声認識処理により、音声についての文章の文字列を検出し、検出された文章の文字列からキーワードを求める。また、画像物体処理部11-2は、画像データに対する物体認識処理により物体を含む領域を検出し、当該領域から物体の名称を含む文章の文字列を検出し、検出された文章の文字列からキーワードを求める。例えば物体が「自動車」の場合、物体の名称を含む文章の文字列として「自動車が走っています。」等が検出される。
【0088】
画像文字処理部11-3は、画像データに対する文字認識処理により、文字を含む文章の文字列を検出し、検出された文章の文字列からキーワードを求める。また、字幕処理部11-4は、字幕データに対する字幕解析処理により、字幕についての文章の文字列を検出し、検出された文章の文字列からキーワードを求める。
【0089】
これにより、放送番組コンテンツの動画像における1フレームについて、それぞれの処理種類(音声データに対する音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理、及び字幕データに対する字幕解析処理)により得られた1または複数のキーワードが、リスト化された状態でメモリ12に格納される。
【0090】
図5は、メモリ12に格納された処理種類毎のキーワードの例を示す図であり、
図4に示したステップS412の処理により得られたキーワードの例を示している。このメモリ12には、音声データに対する音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理、及び字幕データに対する字幕解析処理の処理種類毎に、フレーム毎の1または複数のキーワードが格納されている。
【0091】
例えば、フレーム番号が1において、キーワードとして、音声認識処理につき「スノーボード」、物体認識処理につき「スキー」「スキー」「スケートボード」「卓球」、文字認識処理につき「スキー」、字幕解析処理につき「スキー」が格納されている。
【0092】
物体認識処理につき2個の「スキー」が格納されているのは、フレーム番号が1の画像データにおいて、例えば2人がスキーをしている状態が表れていることを示している。
【0093】
図4に戻って、スコア算出部13は、ステップS412の後、メモリ12から、当該フレームについての音声認識処理、物体認識処理、文字認識処理及び字幕解析処理のキーワードを読み出す。
【0094】
スコア算出部13は、同一のキーワード毎に、音声認識処理、物体認識処理、文字認識処理及び字幕解析処理のそれぞれについて、当該同一のキーワードの個数をカウントする。そして、スコア算出部13は、同一のキーワード毎の各処理種類について、カウント値に予め設定された重み(処理種類毎の重み)を乗算することで、キーワードをスコア化し、各処理種類の乗算結果を加算することで、同一のキーワード毎に、各処理種類を統合した1フレームのスコアを求め、メモリ12に格納する(ステップS413)。
【0095】
図6は、スコア算出部13によるスコア算出例を示す図であり、
図4に示したステップS413の処理により算出された1フレームのスコアの例を示している。音声認識処理の重みを0.5、画像データに対する物体認識処理の重みを0.8、画像データに対する文字認識処理の重みを0.7、字幕解析処理の重みを0.9とする。
【0096】
また、音声処理部11-1の音声認識処理により、1個の「スノーボード」等のキーワードが生成され、画像物体処理部11-2の物体認識処理により、2個の「スキー」、1個の「スケートボード」及び1個の「卓球」等のキーワードが生成されたものとする。さらに、画像文字処理部11-3の文字認識処理により、1個の「スキー」等のキーワードが生成され、字幕処理部11-4の字幕解析処理により、1個の「スキー」等のキーワードが生成されたものとする。
【0097】
この場合、スコア算出部13により、「スキー」のキーワードについて、物体認識処理により得られたキーワードの数である2個に、物体認識処理の重みである0.8が乗算されることで、物体認識処理のスコアとして1.6が得られる。また、スコア算出部13により、「スキー」のキーワードについて、文字認識処理により得られたキーワードの数である1個に、文字認識処理の重みである0.7が乗算されることで、文字認識処理のスコアとして0.7が得られる。さらに、スコア算出部13により、「スキー」のキーワードについて、字幕解析処理により得られたキーワードの数である1個に、字幕解析処理の重みである0.9が乗算されることで、字幕解析処理のスコアとして0.9が得られる。
【0098】
そして、スコア算出部13により、これらのスコア1.6,0.7,0.9が加算されることで、「スキー」のキーワードについて、1フレームのスコアとして3.2が得られる。
【0099】
同様に、スコア算出部13により、「スノーボード」のキーワードについて、1フレームのスコアとして0.5が得られ、「スケートボード」「卓球」のキーワードについて、1フレームのスコアとしてそれぞれ0.8が得られる。
【0100】
尚、「ボール」等のキーワードについては、1フレームのスコアは0である。これらのキーワードは、メモリ12に予め設定されているものとする。
【0101】
図4に戻って、1フレームの音声データ、画像データ及び字幕データについて、ステップS405(N)にて音声認識処理が正常に行われず、かつステップS407(N)にて物体認識処理が正常に行われず、かつステップS409(N)により文字認識処理が正常に行われず、かつステップS411(N)により字幕解析処理が正常に行われていない場合には、ステップS412,S413の処理は行われない。
【0102】
図7は、メモリ12に格納されたキーワード毎のスコアの例を示す図であり、
図4に示したステップS413の処理により得られたスコアの例を示している。このメモリ12には、複数のキーワードのそれぞれについて、フレーム毎のスコアが格納されている。
【0103】
例えば、フレーム番号が1において、キーワードが「スキー」のスコアとして3.2、キーワードが「スノーボード」のスコアとして0.5、キーワードが「スケートボード」のスコアとして0.8、キーワードが「卓球」のスコアとして0.8が格納されている。
【0104】
尚、「ボール」等のキーワードについては、フレーム番号が1におけるスコアは0である。これらのキーワードは、メモリ12に予め設定されているものとする。
【0105】
図4に戻って、字幕処理部11-4は、字幕付与部15からキーワードを含む要求を入力したか否かを判定し、画像物体処理部11-2は、画像付与部16及びシーン時刻付与部17からキーワードを含む要求を入力したか否かを判定する(ステップS414)。字幕付与部15、画像付与部16及びシーン時刻付与部17から入力するキーワードは、当該フレームにおいて、スコアが最大であるとして選択されたキーワード(以下のステップS414(Y)の処理の説明において、「選択キーワード」という。)である。
【0106】
字幕処理部11-4は、ステップS414において、字幕付与部15から選択キーワードを含む要求を入力したと判定した場合(ステップS414:Y)、当該字幕処理部11-4によりステップS412にて求めたキーワードが選択キーワードであるときに、そのキーワードを求めた際に用いた字幕データを、選択キーワードに紐付いた字幕データとして特定し、ステップS415へ移行する。
【0107】
また、画像物体処理部11-2は、ステップS414において、画像付与部16から選択キーワードを含む要求を入力したと判定した場合(ステップS414:Y)、当該画像物体処理部11-2によりステップS412にて求めたキーワードが選択キーワードであるときに、そのキーワードを求めた際に用いた画像データ(のフレーム)を、選択キーワードに紐付いた画像データとして特定し、ステップS415へ移行する。
【0108】
また、画像物体処理部11-2は、ステップS414において、シーン時刻付与部17から選択キーワードを含む要求を入力したと判定した場合(ステップS414:Y)、当該画像物体処理部11-2によりステップS412にて求めたキーワードが選択キーワードであるときに、そのキーワードを求めた際に用いた画像データのシーンの時刻情報(開始時刻及び終了時刻)を、選択キーワードに紐付いた時刻情報として特定し、ステップS415へ移行する。
【0109】
シーンの時刻情報は、画像物体処理部11-2による画像データに含まれる物体からキーワードを求める物体認識処理において、キーワードが選択キーワードである場合に、当該選択キーワードに紐付く画像データに含まれる物体が出現した開始時刻及び終了時刻である。
【0110】
字幕処理部11-4は、ステップS414(Y)から移行して、字幕データを字幕付与部15に出力し、画像物体処理部11-2は、ステップS414(Y)から移行して、画像データを画像付与部16に出力し、シーンの時刻情報をシーン時刻付与部17に出力する(ステップS415)。
【0111】
(キーワード選択部14)
次に、
図2に示したキーワード選択部14の処理について詳細に説明する。
図8は、キーワード選択部14の処理例を示すフローチャートであり、
図3に示したステップS304の処理に対応している。
図8に示す処理は、フレーム毎に行われる。
【0112】
キーワード選択部14は、メモリ12から、処理対象のフレームについて、
図7に示したキーワードに対応する1フレームのスコアを読み出す(ステップS801)。
【0113】
キーワード選択部14は、当該キーワードについて、ステップS801にて読み出したスコアが最大値よりも大きいか否かを判定する(ステップS802)。尚、最大値は、初期値として0が設定されているものとする。
【0114】
キーワード選択部14は、ステップS802において、ステップS801にて読み出したスコアが最大値よりも大きいと判定した場合(ステップS802:Y)、そのスコアを最大値に設定することで、最大値を更新し(ステップS803)、ステップS804へ移行する。
【0115】
一方、キーワード選択部14は、ステップS802において、そのスコアが最大値よりも大きくないと判定した場合(ステップS802:N)、ステップS804へ移行する。
【0116】
キーワード選択部14は、ステップS803またはステップS802(N)から移行して、処理対象のフレームにつき全てのキーワードの処理が完了したか否かを判定する(ステップS804)。
【0117】
キーワード選択部14は、ステップS804において、全てのキーワードについての処理が完了していないと判定した場合(ステップS804:N)、処理対象のフレームについて、メモリ12に格納された次のキーワード(
図7を参照)を設定し(ステップS805)、ステップS801へ移行する。そして、キーワード選択部14は、メモリ12から、次のキーワードに対応する1フレームのスコアを読み出す。そして、キーワード選択部14は、ステップS802,S803の処理を行う。
【0118】
一方、キーワード選択部14は、ステップS804において、全てのキーワードについての処理が完了したと判定した場合(ステップS804:Y)、メモリ12に格納された全てキーワードのうち、スコアが最大のキーワード(ステップS803にて最後に最大値を更新したときの1フレームのスコアに対応するキーワード)を選択する(ステップS806)。
図7の例では、キーワード選択部14により、フレーム番号が1について、1フレームのスコアが最大(3.2)である「スキー」のキーワードが選択される。
【0119】
キーワード選択部14は、コンテンツ情報及び(選択された)キーワードを字幕付与部15に出力する(ステップS807)。
【0120】
尚、スコア算出部13によりNフレーム毎にスコアが集計された場合、キーワード選択部14は、ステップS801において、キーワードに対応するNフレームのスコアを読み出し、Nフレームを単位としたステップS802~S807の処理を行う。Nフレーム毎に集計されたスコアは、ばらつきが少ないため、安定したキーワードを選択することができる。結果として、後段のRDF生成部18において、精度の高い知識データをRDFデータとして生成することができる。
【0121】
(字幕付与部15)
次に、
図2に示した字幕付与部15の処理について詳細に説明する。
図9は、字幕付与部15の処理例を示すフローチャートであり、
図3に示したステップS305の処理に対応している。
【0122】
字幕付与部15は、キーワード選択部14からコンテンツ情報及び(選択された)キーワードを入力する(ステップS901)。そして、字幕付与部15は、当該キーワードに紐付いた字幕データを取得するための要求を、キーワードと共に字幕処理部11-4に出力する(ステップS902)。
【0123】
字幕付与部15は、字幕処理部11-4から、要求に応じた当該キーワードに紐付いた字幕データを入力したか否かを判定する(ステップS903)。
【0124】
字幕付与部15は、ステップS903において、字幕処理部11-4から字幕データを入力したと判定した場合(ステップS903:Y)、入力した字幕データをキーワードに付与する(ステップS904)。
【0125】
ここで、字幕処理部11-4は、字幕付与部15からキーワードと共に要求を入力し、当該キーワードであるスコアが最大のキーワードが、字幕データから生成したキーワードと一致する場合に、要求に応じた結果として当該字幕データを字幕付与部15に出力する。この字幕データは、
図4に示したステップS411において、字幕解析処理が正常に行われたと判定され(ステップS411:Y)、かつスコアが最大のキーワードに対応するデータである。字幕付与部15は、字幕処理部11-4から字幕データを入力し、字幕データをキーワードに紐付ける。
【0126】
字幕付与部15は、コンテンツ情報、(選択された)キーワード、及び当該キーワードに紐付いた字幕データを画像付与部16に出力する(ステップS905)。
【0127】
一方、字幕付与部15は、ステップS903において、字幕処理部11-4から字幕データを入力していないと判定した場合(ステップS903:N)、コンテンツ情報及び(選択された)キーワードを画像付与部16に出力する(ステップS906)。つまり、字幕処理部11-4は、要求と共に入力したキーワードが、字幕データから生成したキーワードと一致しない場合に、要求に応じた結果として字幕データなしを字幕付与部15に出力する。この場合に、字幕付与部15は、字幕処理部11-4から字幕データなしを入力することで、字幕データを入力していないと判定する。
【0128】
このように、字幕付与部15により、スコアが最大である選択されたキーワードと関係性のある字幕データが取得され、当該キーワードに字幕データが紐付けられることとなる。
【0129】
このような処理は、キーワード選択部14により選択されたフレーム毎のキーワードについて行われる。つまり、当該キーワードに紐付いた字幕データがある場合は、字幕データが字幕付与部15から画像付与部16に出力される。
【0130】
(画像付与部16)
次に、
図2に示した画像付与部16の処理について詳細に説明する。
図10は、画像付与部16の処理例を示すフローチャートであり、
図3に示したステップS306の処理に対応している。
【0131】
画像付与部16は、字幕付与部15から、コンテンツ情報、(選択された)キーワード、及び当該キーワードに紐付いた字幕データ(または、コンテンツ情報及び(選択された)キーワード)を入力する(ステップS1001)。そして、画像付与部16は、当該キーワードに紐付いた画像データを取得するための要求を、キーワードと共に画像物体処理部11-2に出力する(ステップS1002)。
【0132】
画像付与部16は、画像物体処理部11-2から、要求に応じた当該キーワードに紐付いた画像データを入力したか否かを判定する(ステップS1003)。
【0133】
画像付与部16は、ステップS1003において、画像物体処理部11-2から画像データを入力したと判定した場合(ステップS1003:Y)、入力した画像データをキーワードに付与する(ステップS1004)。
【0134】
ここで、画像物体処理部11-2は、画像付与部16からキーワードと共に要求を入力し、当該キーワードであるスコアが最大のキーワードが、画像データから生成したキーワードと一致する場合に、要求に応じた結果として当該画像データを画像付与部16に出力する。この画像データは、
図4に示したステップS407において、物体認識処理が正常に行われたと判定され(ステップS407:Y)、かつスコアが最大のキーワードに対応するデータである。画像付与部16は、画像物体処理部11-2から画像データを入力し、画像データをキーワードに紐付ける。
【0135】
画像付与部16は、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ及び画像データをシーン時刻付与部17に出力する(ステップS1005)。
【0136】
一方、画像付与部16は、ステップS1003において、画像物体処理部11-2から画像データを入力していないと判定した場合(ステップS1003:N)、コンテンツ情報、(選択された)キーワード、及び当該キーワードに紐付いた字幕データ(または、コンテンツ情報及び(選択された)キーワード)をシーン時刻付与部17に出力する(ステップS1006)。つまり、画像物体処理部11-2は、要求と共に入力したキーワードが、画像データから生成したキーワードと一致しない場合に、要求に応じた結果として画像データなしを画像付与部16に出力する。この場合に、画像付与部16は、画像物体処理部11-2から画像データなしを入力することで、画像データを入力していないと判定する。
【0137】
このように、画像付与部16により、スコアが最大である選択されたキーワードと関係性のある画像データ、つまり、画像物体処理部11-2の物体認識処理により認識された物体を含む画像データのうち効果的な画像データが取得され、当該キーワードに画像データが紐付けられることとなる。
【0138】
このような処理は、キーワード選択部14により選択されたフレーム毎のキーワードについて行われる。つまり、キーワードに紐付いた画像データがある場合は、画像データが画像付与部16からシーン時刻付与部17に出力される。
【0139】
(シーン時刻付与部17)
次に、
図2に示したシーン時刻付与部17の処理について詳細に説明する。
図11は、シーン時刻付与部17の処理例を示すフローチャートであり、
図3に示したステップS307の処理に対応している。
【0140】
シーン時刻付与部17は、画像付与部16から、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ及び画像データ(または、コンテンツ情報、(選択された)キーワード及び字幕データ)(または、コンテンツ情報及び(選択された)キーワード)を入力する(ステップS1101)。そして、シーン時刻付与部17は、当該キーワードに紐付いた画像データのシーンの時刻情報を取得するための要求を、キーワードと共に画像物体処理部11-2に出力する(ステップS1102)。
【0141】
シーン時刻付与部17は、画像物体処理部11-2から、要求に応じた当該キーワードに紐付いたシーンの時刻情報を入力したか否かを判定する(ステップS1103)。
【0142】
シーン時刻付与部17は、ステップS1103において、画像物体処理部11-2からシーンの時刻情報を入力したと判定した場合(ステップS1103:Y)、入力したシーンの時刻情報をキーワードに付与する(ステップS1104)。
【0143】
ここで、画像物体処理部11-2は、シーン時刻付与部17からキーワードと共に要求を入力し、当該キーワードであるスコアが最大のキーワードが、画像データから生成したキーワードと一致する場合に、当該画像データに含まれる物体からキーワードを生成する物体認識処理において、同一のキーワードが生成された連続する複数のフレームの画像データにおいて物体が出現したシーンの開始時刻及び終了時刻を抽出してこれを時刻情報とし、要求に応じた結果として当該シーンの時刻情報をシーン時刻付与部17に出力する。このシーンの時刻情報は、
図4に示したステップS407にて物体認識処理が正常に行われ(ステップS407:Y)、かつスコアが最大のキーワードに対応する画像データ(この場合は複数フレーム)において、最初のフレームの時刻及び最後のフレームの時刻である。シーン時刻付与部17は、画像物体処理部11-2からシーンの時刻情報を入力し、シーンの時刻情報をキーワードに紐付ける。
【0144】
シーン時刻付与部17は、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報を知識データとしてRDF生成部18に出力する(ステップS1105)。
【0145】
図12は、シーン時刻付与部17から出力されるコンテンツ情報等のデータ例を示す図であり、
図11に示したステップS1105の処理に対応している。
【0146】
図12に示すように、例えばコンテンツ情報に含まれるコンテンツID「AAA」について、(選択された)キーワード「2次関数」、並びに当該キーワード「2次関数」に紐付いた字幕データ「xが2乗になった、つまりxの・・・」、画像データ「(y=x
2等が表示されたデータ)」及びシーンの時刻情報「開始時刻h1:m1:s1:f1/終了時刻h1:m1:s2:f2」が、シーン時刻付与部17から出力される。
【0147】
図11に戻って、一方、シーン時刻付与部17は、ステップS1103において、画像物体処理部11-2からシーンの時刻情報を入力していないと判定した場合(ステップS1103:N)、コンテンツ情報、(選択された)キーワード及び当該キーワードに紐付いた字幕データ(または、コンテンツ情報及び(選択された)キーワード)を知識データとしてRDF生成部18に出力する(ステップS1106)。つまり、画像物体処理部11-2は、要求と共に入力したキーワードが、画像データから生成したキーワードと一致しない場合に、要求に応じた結果としてシーンの時刻情報なしをシーン時刻付与部17に出力する。この場合に、シーン時刻付与部17は、画像物体処理部11-2からシーンの時刻情報なしを入力することで、シーンの時刻情報を入力していないと判定する。
【0148】
このように、シーン時刻付与部17により、スコアが最大である選択されたキーワードと関係性のある画像データのシーンの時刻情報、つまり、画像物体処理部11-2の物体認識処理により認識された物体を含む画像データのうち効果的な画像データについて、物体が出現するシーンの時刻情報が取得され、当該キーワードに、シーンの時刻情報が紐付けられることとなる。
【0149】
このような処理は、キーワード選択部14により選択されたフレーム毎のキーワードについて行われる。つまり、キーワードに紐付いたシーンの時刻情報がある場合は、シーンの時刻情報がシーン時刻付与部17からRDF生成部18に出力される。
【0150】
(RDF生成部18により生成されるRDFデータ)
次に、
図2に示したRDF生成部18により生成されるRDFデータについて説明する。
図13は、RDFデータの記述例を説明する図である。
【0151】
コンテンツ情報に含まれるコンテンツID「20210x・・・x」、コンテンツのURL等のデータ、第1のキーワードとして「放物線」「ボール」「速度」、当該第1のキーワードに紐付いた画像データ及び第1のシーンの時刻情報、第2のキーワードとして「ライト」「光」等、当該第2のキーワードに紐付いた画像データ及び第2のシーンの時刻情報からなる知識データが、RDF生成部18に入力されたものとする。
【0152】
RDF生成部18により、前述の知識データがシーン毎に集計され、
図13に示すRDFデータに変換され、DB登録部19に登録される。
図13に示すように、このRDFデータは、コンテンツ全体の記述部分a、第1のシーンに関する記述部分b、及び第2のシーンに関する記述部分cから構成される。
【0153】
記述部分aには、当該RDFデータの名称「x・・・x」(a1)、予め設定されたデータ名称「TVEpisode」(a2)、コンテンツID「20210x・・・x」(a3)、コンテンツのタイトル「波は何を伝えるのだろう」(a4)、話数「episodeNumber1」(a5)、科目「物理基礎」(a6)及びシーン名称「Part1」「Part2」(a7)が記述される。
【0154】
記述部分bには、シーン名称「Part1」の第1のシーンについて、予め設定されたデータ名称「TVEpisode」(b1)、キーワード「放物線」「ボール」「速度」(b2)、コンテンツのURL(b3)、第1のシーンの開始時刻(b4)及び終了時刻(b5)が記述される。
【0155】
記述部分cには、シーン名称「Part2」の第2のシーンにつき、記述部分bのように、データ名称、キーワード等が記述される。
【0156】
以上のように、本発明の実施例1の知識データ生成装置1Aによれば、データ処理部11は、放送番組コンテンツを構成する音声データ、画像データ及び字幕データを用いて、それぞれ音声データに対する音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理及び字幕データに対する字幕解析処理にて、各処理種類に応じた1フレーム毎の1または複数のキーワードを求める。
【0157】
スコア算出部13は、処理種類毎に、それぞれのキーワードをスコア化し、同一のキーワード毎に、各処理種類を統合した1フレームのスコアを求める。
【0158】
キーワード選択部14は、全てのフレームのそれぞれについて、スコアが最大のキーワードを選択する。
【0159】
字幕付与部15は、字幕処理部11-4から、(選択された)キーワードに紐付いた字幕データを取得し、画像付与部16は、画像物体処理部11-2から、当該キーワードに紐付いた画像データを取得し、シーン時刻付与部17は、画像物体処理部11-2から、当該キーワードに紐付いた画像データのシーンの時刻情報を取得する。
【0160】
RDF生成部18は、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報からなる知識データをRDFデータに変換し、RDFデータをDB登録部19に登録する。
【0161】
このように、1つの放送番組コンテンツに対し、コンテンツ情報及びキーワードに加え、当該コンテンツの字幕データ、画像データ及びシーンの時刻情報を取得することができる。また、これらのデータからなる知識データを用いて、所望のコンテンツを検索することで、様々なコンテンツの連携を実現することができ、ユーザに対し、精度の高いコンテンツを提示することができる。
【0162】
つまり、実施例1の知識データ生成装置1Aによれば、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成することができる。
【0163】
また、DB登録部19に登録される知識データは、RDFの形式である。RDFデータは、Webにて一般的に用いられているデータであって可読可能な形式であるため、知識データを用いて所望のコンテンツを検索する等のコンピュータ処理において、取り扱い易いという利点がある。
【0164】
前述のとおり、従来の特許文献1では、学習指導要領を元にコンテンツが提示され、従来の非特許文献1では、教科書に記載された学習順序を元にコンテンツが提示される。また、本件特許出願時に未公開の特願2021-184993号公報に記載された発明では、キーワードである文字データのみに基づいてコンテンツが提示される。このため、提示されるコンテンツの範囲が限定されてしまい、ユーザに対して、必ずしも効果的なコンテンツを提示できるとは限らないという問題があった。
【0165】
これに対し、実施例1の知識データ生成装置1Aでは、様々な分野の外部データ2及び放送局データ3のコンテンツを用いて知識データが生成された場合、知識データには、コンテンツの意味合いの幅が広がった複数のキーワード、これに紐付いた字幕データ、画像データ及びシーンの時刻情報が含まれることとなる。そして、この知識データを用いて、ユーザによる所望のコンテンツの検索が行われることで、様々なコンテンツの連携を実現することができる。また、知識データは、コンテンツを構成するマルチモーダルなデータを用いて生成され、かつ様々な分野の外部データ2及び放送局データ3のコンテンツを用いて生成される。この知識データを用いることで、精度の高いコンテンツの提示を実現することができる。
【0166】
例えば、知識データに含まれるキーワード及び字幕データ等同士が比較されることで、ユーザが指定した文字データ等と同一のキーワード及び字幕データ等に対応する他の分野のコンテンツの提示が可能となる。このため、学習順序に依存することなく、コンテンツの提示が可能となる。
【0167】
また、知識データを用いて、ユーザが指定した文字データ等と類似するキーワード及び字幕データ等に対応するコンテンツが検索されることで、検索されたコンテンツのリストの提示が可能となる。ユーザは、そのリストを参照することで、自身の習熟度または興味に応じて、次に学習するコンテンツを自発的に選択することができる。
【0168】
〔実施例2/知識データ生成装置1B〕
次に、実施例2の知識データ生成装置1Bについて説明する。実施例2の知識データ生成装置1Bは、教育分野の学習用のコンテンツを用いて、実施例1の処理に加え、コンテンツIDから学習指導要領コードを検索し、学習指導要領コードから関連コンテンツを検索し、キーワードに紐付いた字幕データ、画像データ、シーンの時刻情報、学習指導要領コード及び関連コンテンツの識別情報等を知識データとし、知識データをRDFデータに変換するものである。
【0169】
ここで、学習指導要領コードは、学習指導要領の総則及び各教科等の全内容に対し、学校種、教科及び学年等の一定のルールに基づいて、16桁の数字を割り振ったものである。詳細については、以下の非特許文献を参照されたい。
[非特許文献] “学習指導要領コードについて”、[online]、文部科学省、[令和4年8月31日検索]、インターネット<URL:https://www.mext.go.jp/content/20201016-mxt_syoto01-000010374_3.pdf>
【0170】
図14は、実施例2の知識データ生成装置1Bの構成例を示すブロック図であり、
図15は、実施例2の知識データ生成装置1Bの処理例を示すフローチャートである。
【0171】
知識データ生成装置1Bは、入力部10、データ処理部11、メモリ12、スコア算出部13、キーワード選択部14、字幕付与部15、画像付与部16、シーン時刻付与部17、RDF生成部18、DB登録部19、コード検索部20、関連コンテンツ検索部21及びテーブル22,23を備えている。データ処理部11は、音声処理部11-1、画像物体処理部11-2、画像文字処理部11-3及び字幕処理部11-4を備えている。
【0172】
図2に示した実施例1の知識データ生成装置1Aとこの知識データ生成装置1Bとを比較すると、両知識データ生成装置1A,1Bは、入力部10、データ処理部11、メモリ12、スコア算出部13、キーワード選択部14、字幕付与部15、画像付与部16、シーン時刻付与部17、RDF生成部18及びDB登録部19を備えている点で共通する。
【0173】
これに対し、知識データ生成装置1Bは、知識データ生成装置1Aの構成に加え、さらに、コード検索部20、関連コンテンツ検索部21及びテーブル22,23を備えている点で、知識データ生成装置1Aと相違する。
図14において、
図2と共通する部分には
図2と同一の符号を付し、その詳しい説明は省略する。
【0174】
図15のステップS1501~S1507は、
図3に示したステップS301~S307と同様であるため、ここでは説明を省略する。ここで、知識データ生成装置1Bは、教育分野の学習用のコンテンツを扱うものとする。つまり、
図14及び
図15を参照して、入力部10は、ステップS1501において、例えば放送局データ3から、教育分野の学習用のコンテンツを識別するための情報等のコンテンツ情報、及び学習用のコンテンツのデータ(音声データ、画像データ及び字幕データ)を入力するものとする。
【0175】
シーン時刻付与部17は、ステップS1507の処理において、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報をコード検索部20に出力する。
【0176】
コード検索部20は、シーン時刻付与部17からコンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報を入力する。そして、コード検索部20は、後述するテーブル22を用いて、コンテンツ情報に含まれるコンテンツIDに対応する学習指導要領コードを検索する(ステップS1508)。尚、コード検索部20は、キーワードを用いて、学習指導要領コードを検索するようにしてもよい。
【0177】
コード検索部20は、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コードを関連コンテンツ検索部21に出力する。
【0178】
関連コンテンツ検索部21は、コード検索部20から、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コードを入力する。そして、関連コンテンツ検索部21は、後述するテーブル23を用いて、学習指導要領コードに対応する関連コンテンツを検索し(ステップS1509)、関連コンテンツを識別するための情報(関連コンテンツID)等の関連コンテンツ情報を取得する。
【0179】
関連コンテンツ検索部21は、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コード及び関連コンテンツ情報を知識データとし、知識データをRDF生成部18に出力する。
【0180】
RDF生成部18は、関連コンテンツ検索部21から、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コード及び関連コンテンツ情報からなる知識データを入力する。そして、RDF生成部18は、知識データをRDFデータに変換することで、RDFデータを生成し(ステップS1510)、RDFデータをDB登録部19に登録する(ステップS1511)。これにより、DB登録部19には、知識データがRDFデータとして登録されることとなる。
【0181】
尚、RDF生成部18は、関連コンテンツ検索部21から、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ及び画像データに加え、学習指導要領コード及び関連コンテンツ情報からなる知識データを入力する場合もあり、コンテンツ情報、(選択された)キーワード、及び当該キーワードに紐付いた字幕データに加え、学習指導要領コード及び関連コンテンツ情報からなる知識データを入力する場合もある。また、RDF生成部18は、コンテンツ情報、(選択された)キーワード、学習指導要領コード及び関連コンテンツ情報からなる知識データを入力する場合もある。
【0182】
(コード検索部20)
次に、
図14に示したコード検索部20の処理について詳細に説明する。
図16は、コード検索部20の処理例を示すフローチャートであり、
図15に示したステップS1508の処理に対応している。
【0183】
コード検索部20は、シーン時刻付与部17からコンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報を入力する(ステップS1601)。
【0184】
コード検索部20は、コンテンツ情報からコンテンツIDを抽出する(ステップS1602)。そして、コード検索部20は、テーブル22を用いて、コンテンツIDに対応する学習指導要領コードを検索することで、テーブル22から学習指導要領コードを読み出す(ステップS1603)。
【0185】
図17は、コード検索部20が用いるテーブル22のデータ構成例を示す図である。このテーブル22には、コンテンツの識別情報であるコンテンツID及び当該コンテンツIDに対応する16桁の学習指導要領コードを組として、複数の組のデータが格納されている。これらのデータは予め設定される。
【0186】
図16に戻って、コード検索部20は、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コードを関連コンテンツ検索部21に出力する(ステップS1604)。
【0187】
(関連コンテンツ検索部21)
次に、
図14に示した関連コンテンツ検索部21の処理について詳細に説明する。
図18は、関連コンテンツ検索部21の処理例を示すフローチャートであり、
図15に示したステップS1509の処理に対応している。
【0188】
関連コンテンツ検索部21は、コード検索部20からコンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コードを入力する(ステップS1801)。
【0189】
関連コンテンツ検索部21は、テーブル23を用いて、学習指導要領コードに対応する関連コンテンツIDを検索することで、テーブル23から関連コンテンツIDを読み出す(ステップS1802)。
【0190】
図19は、関連コンテンツ検索部21が用いるテーブル23のデータ構成例を示す図である。このテーブル23には、16桁の学習指導要領コード、当該学習指導要領コードに対応する1または複数の学習指導要領キーワード及び当該学習指導要領キーワード(または学習指導要領コード)に対応する1または複数の関連コンテンツIDを組として、複数の組のデータが格納されている。これらのデータは予め設定される。
【0191】
尚、テーブル23には、学習指導要領コード、学習指導要領キーワード及び関連コンテンツIDが格納されているが、学習指導要領コード及び関連コンテンツIDが格納されるようにしてもよい。
【0192】
図18に戻って、関連コンテンツ検索部21は、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コード及び関連コンテンツIDをRDF生成部18に出力する(ステップS1803)。
【0193】
尚、関連コンテンツ検索部21は、ステップS1802において、テーブル23を用いることなく、関連コンテンツIDを検索するようにしてもよい。具体的には、関連コンテンツ検索部21は、学習指導要領コードから学習指導要領を特定し、当該学習指導要領から学習指導要領キーワードを求める。そして、関連コンテンツ検索部21は、インターネット等のデータベースを用いて、学習指導要領キーワードに対応する関連コンテンツを検索することで、学習指導要領キーワード(及び学習指導要領コード)に対応する関連コンテンツIDを取得する。
【0194】
以上のように、本発明の実施例2の知識データ生成装置1Bによれば、入力部10、データ処理部11、メモリ12、スコア算出部13、キーワード選択部14、字幕付与部15、画像付与部16及びシーン時刻付与部17は、実施例1と同様の処理を行う。
【0195】
コード検索部20は、テーブル22を用いて、コンテンツ情報に含まれるコンテンツIDに対応する学習指導要領コードを検索し、関連コンテンツ検索部21は、テーブル23を用いて、学習指導要領コードに対応する関連コンテンツIDを検索する。
【0196】
RDF生成部18は、コンテンツ情報、(選択された)キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コード及び関連コンテンツIDからなる知識データをRDFデータに変換し、RDFデータをDB登録部19に登録する。
【0197】
このように、教育分野の学習用のコンテンツに対し、コンテンツ情報及びキーワード、並びに当該コンテンツの字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コード及び関連コンテンツIDを取得することができる。また、これらのデータからなる知識データを用いて、所望のコンテンツを検索することで、様々なコンテンツの連携を実現することができ、ユーザに対し、精度の高いコンテンツを提示することができる。
【0198】
つまり、実施例2の知識データ生成装置1Bによれば、教育分野の学習用のコンテンツについて、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成することができる。
【0199】
以上、実施例1,2を挙げて本発明を説明したが、本発明は前記実施例1,2に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0200】
例えば、実施例1,2の知識データ生成装置1A,1Bに備えたRDF生成部18は、知識データをRDFデータに変換するようにした。本発明は、構造化データをRDFデータに限定するものではない。RDF生成部18に代わる構造化データ生成部は、知識データをRDFデータ以外の構造化データに変換するようにしてもよい。
【0201】
また、実施例2の知識データ生成装置1Bでは、教育分野に適用した例を示したが、教育以外の分野についても適用がある。この場合、学習指導要領コードの代わりに、適用する分野に使用されているコードが用いられる。
【0202】
尚、本発明の実施例1,2による知識データ生成装置1A,1Bのハードウェア構成としては、通常のコンピュータを使用することができる。知識データ生成装置1A,1Bは、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
【0203】
知識データ生成装置1Aに備えた入力部10、データ処理部11(音声処理部11-1、画像物体処理部11-2、画像文字処理部11-3及び字幕処理部11-4)、メモリ12、スコア算出部13、キーワード選択部14、字幕付与部15、画像付与部16、シーン時刻付与部17、RDF生成部18及びDB登録部19の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0204】
また、知識データ生成装置1Bに備えた入力部10、データ処理部11、メモリ12、スコア算出部13、キーワード選択部14、字幕付与部15、画像付与部16、シーン時刻付与部17、RDF生成部18、DB登録部19、コード検索部20、関連コンテンツ検索部21及びテーブル22,23の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0205】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0206】
1,1A,1B 知識データ生成装置
2,2-1,2-2,2-3 外部データ
3,3-1,3-2 放送局データ
4-1,4-2,4-3 ユーザ端末
10 入力部
11 データ処理部
11-1 音声処理部
11-2 画像物体処理部
11-3 画像文字処理部
11-4 字幕処理部
12 メモリ
13 スコア算出部
14 キーワード選択部
15 字幕付与部
16 画像付与部
17 シーン時刻付与部
18 RDF生成部(構造化データ生成部)
19 DB登録部
20 コード検索部
21 関連コンテンツ検索部
22,23 テーブル