特開2024-46549 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2024-46549知識データ生成装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024046549

(43)【公開日】2024-04-03

(54)【発明の名称】知識データ生成装置及びプログラム

(51)【国際特許分類】

G06F 16/78 20190101AFI20240327BHJP

G06F 16/90 20190101ALI20240327BHJP

【ＦＩ】

G06F16/78

G06F16/90 100

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022151989

(22)【出願日】2022-09-22

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り（１）令和４年２月２１日に２０２２年電子情報通信学会総合大会のウェブサイトにて掲載（２）令和３年１２月１日に２０２１年映像情報メディア学会冬季大会講演予稿集にて発表

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100121119

【弁理士】

【氏名又は名称】花村泰伸

(72)【発明者】

【氏名】藤津智

(72)【発明者】

【氏名】小松佑人

(72)【発明者】

【氏名】藤井翔子

(72)【発明者】

【氏名】松村欣司

(72)【発明者】

【氏名】藤沢寛

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA04

5B175FB02

(57)【要約】

【課題】様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成する。
【解決手段】知識データ生成装置１Ａのデータ処理部１１は、コンテンツを構成する音声データ、画像データ及び字幕データを用いて、フレーム毎にキーワードを求める。スコア算出部１３は、キーワードをスコア化し、同一のキーワード毎に、統合した１フレームのスコアを求め、キーワード選択部１４は、全てのフレームのそれぞれについて、スコアが最大のキーワードを選択する。字幕付与部１５は、キーワードに紐付いた字幕データを、画像付与部１６及びシーン時刻付与部１７は、キーワードに紐付いた画像データ及びシーンの時刻情報をそれぞれ取得する。ＲＤＦ生成部１８は、コンテンツ情報、キーワード、並びにキーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報からなる知識データをＲＤＦデータに変換し、ＤＢ登録部１９に登録する。
【選択図】図２

【特許請求の範囲】

【請求項1】

コンテンツに関するキーワードを求め、前記キーワードに基づいて所望のコンテンツを検索する際に用いる知識データを生成する知識データ生成装置において、
前記コンテンツは、字幕データを含む複数種類のデータにより構成されるものとして、
前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から１または複数のキーワードを求めるデータ処理部と、
前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部と、
前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、当該キーワードを選択キーワードとするキーワード選択部と、
前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記字幕データについて求めた前記キーワードと一致する場合、前記字幕データを、前記選択キーワードに紐付いた字幕データとして、前記選択キーワードに付与する字幕付与部と、
前記コンテンツの識別情報、前記選択キーワード、及び前記字幕付与部により付与された前記選択キーワードに紐付いた字幕データを前記知識データとし、前記知識データを所定の構造化データに変換する構造化データ生成部と、
前記構造化データ生成部により変換された前記構造化データをＤＢに登録するＤＢ登録部と、
を備えたことを特徴とする知識データ生成装置。

【請求項2】

コンテンツに関するキーワードを求め、前記キーワードに基づいて所望のコンテンツを検索する際に用いる知識データを生成する知識データ生成装置において、
前記コンテンツは、画像データを含む複数種類のデータにより構成されるものとして、
前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から１または複数のキーワードを求めるデータ処理部と、
前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部と、
前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、当該キーワードを選択キーワードとするキーワード選択部と、
前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記画像データについて求めた前記キーワードと一致する場合、前記画像データを、前記選択キーワードに紐付いた画像データとして、前記選択キーワードに付与する画像付与部と、
前記コンテンツの識別情報、前記選択キーワード、前記画像付与部により付与された前記選択キーワードに紐付いた画像データを前記知識データとし、前記知識データを所定の構造化データに変換する構造化データ生成部と、
前記構造化データ生成部により変換された前記構造化データをＤＢに登録するＤＢ登録部と、
を備えたことを特徴とする知識データ生成装置。

【請求項3】

請求項１に記載の知識データ生成装置において、
前記コンテンツは、前記字幕データに加え、画像データを含む複数種類のデータにより構成されるものとして、
さらに、前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記画像データについて求めた前記キーワードと一致する場合、前記画像データを、前記選択キーワードに紐付いた画像データとして、前記選択キーワードに付与する画像付与部と、
前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記画像データについて求めた前記キーワードと一致する場合、前記選択キーワードが一致する前記画像データの連続する複数のフレームにつき、最初のフレームの時刻を示す開始時刻及び最後のフレームの時刻を示す終了時刻を、前記選択キーワードに紐付いたシーンの時刻情報として、前記選択キーワードに付与するシーン時刻付与部と、を備え、
前記構造化データ生成部は、
前記コンテンツの識別情報、前記選択キーワード、前記字幕付与部により付与された前記選択キーワードに紐付いた字幕データ、前記画像付与部により付与された前記選択キーワードに紐付いた画像データ、及び前記シーン時刻付与部により付与された前記選択キーワードに紐付いたシーンの時刻情報を前記知識データとし、前記知識データを前記所定の構造化データに変換する、ことを特徴とする知識データ生成装置。

【請求項4】

請求項１から３までのいずれか一項に記載の知識データ生成装置において、
前記コンテンツを、教育分野の学習用のコンテンツとして、
さらに、前記コンテンツの識別情報に基づいて、学習指導要領コードを検索するコード検索部と、
前記コード検索部により検索された前記学習指導要領コードに基づいて、前記コンテンツに関連するコンテンツの識別情報を検索する関連コンテンツ検索部と、
前記構造化データ生成部は、
前記知識データに、前記コード検索部により検索された前記学習指導要領コード、及び前記関連コンテンツ検索部により検索された前記関連するコンテンツの識別情報を加えた新たな知識データを、前記所定の構造化データに変換する、ことを特徴とする知識データ生成装置。

【請求項5】

コンテンツに関するキーワードを求め、前記キーワードに基づいて所望のコンテンツを検索する際に用いる知識データを生成する知識データ生成装置を構成するコンピュータを、
前記コンテンツは、字幕データを含む複数種類のデータにより構成されるものとして、
前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から１または複数のキーワードを求めるデータ処理部、
前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部、
前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、当該キーワードを選択キーワードとするキーワード選択部、
前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記字幕データについて求めた前記キーワードと一致する場合、前記字幕データを、前記選択キーワードに紐付いた字幕データとして、前記選択キーワードに付与する字幕付与部、
前記コンテンツの識別情報、前記選択キーワード、及び前記字幕付与部により付与された前記選択キーワードに紐付いた字幕データを前記知識データとし、前記知識データを所定の構造化データに変換する構造化データ生成部、及び、
前記構造化データ生成部により変換された前記構造化データをＤＢに登録するＤＢ登録部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、コンテンツを検索するためのデータベースを生成する技術に関する。

【背景技術】

【0002】

従来、コンテンツ同士を意味的に結び付けることでコンテンツを連携させ、ユーザの所望するコンテンツを提示する技術の開発が進められている。コンテンツを連携させる技術とは、コンテンツ同士を繋げる技術である。

【0003】

例えば教育分野において、ユーザによる自発的な学習を補助するために、現在使用しているコンテンツに関連するコンテンツを提示する手法が開示されている（例えば、特許文献１及び非特許文献１を参照）。

【0004】

一般に、指導者がユーザの習熟度を完全にかつ適切に把握することは困難であり、ユーザ自身の習熟度に合わせて、ユーザの自発的な学習が求められる。一方で、学習に使用するコンテンツも電子教材の普及に伴い、多種多様なものが作られている。

【0005】

ユーザは、自学自習する際に、多様なコンテンツの中から自分に合ったものを検索する必要があり、習熟度に応じたコンテンツ検索方法が所望されていた。つまり、ユーザの自発的な学習を補助するために、現在の学習に使用しているコンテンツから、これに関連するコンテンツを提示することが可能な手法が所望されていた。

【0006】

このような手法の例として、特許文献１には、学習指導要領を元に学習領域を定め、その中から学年、教科及び教科書単元に基づいて、レコメンド教材のコンテンツをユーザへ提示する手法が開示されている。

【0007】

また、非特許文献１には、教科書に記載されている各単元の導入部に基づいて、学習順序及び学習系統を構造化し、構造化されたデータを用いてユーザに学習支援を行う手法が開示されている。

【0008】

このようなコンテンツ提示手法は、ユーザの学習に対する習熟度の差が大きいという状況を考慮したものである。例えば、一斉授業のような画一的な教育方法では、ユーザの習熟度に合った教育を提供することができないため、このようなコンテンツ提示手法が用いられる。

【先行技術文献】

【特許文献】

【0009】

【特許文献1】特開２０１５－１８１５９号公報

【非特許文献】

【0010】

【非特許文献1】後藤隆友、“オントロジーに基づく数学教育支援システムの提案”、電子情報通信学会技術研究報告、ＥＴ、教育工学 105(581)、7-12、2006

【発明の概要】

【発明が解決しようとする課題】

【0011】

しかしながら、前述の特許文献１に記載された学習指導要領を元にコンテンツを提示する手法、及び前述の非特許文献１に記載された学習順序を元にコンテンツを提示する手法では、ユーザは、現在の学習に使用しているコンテンツに関連するコンテンツとして、教材以外のコンテンツ（例えば放送番組コンテンツ）の提示を受けることが難しい。

【0012】

つまり、前述の手法では、学習指導要領等に関連する領域及びこれに近接した領域のコンテンツが提示されることとなり、提示されるコンテンツの領域が限定されてしまう。

【0013】

また、前述の手法では、ユーザがコンテンツの提示を受けた後に、引き続きコンテンツの提示を受けるためには、データを再入力する必要があり、人手及び作業時間のコストがかかってしまう。

【0014】

ここで、ユーザは、教材のコンテンツに加え、教材以外の例えば放送番組コンテンツの提示を受けることができれば、効果的な学習を実現できることが期待される。

【0015】

このような効果的な学習を実現するために、教材以外の様々な領域のコンテンツも提示可能とするデータベースの構築が必要となる。

【0016】

教育分野だけでなく、教育以外の分野においても、現在使用しているコンテンツに関連するコンテンツを、様々な領域から検索して提示するためには、コンテンツ同士を連携させるデータベースの構築を自動化する必要がある。

【0017】

このような課題を解決するために、本件特許出願時に未公開の特願２０２１－１８４９９３号公報に記載された発明が、本件特許出願と同一の出願人により出願された。この発明は、音声データ及び字幕データから複数のキーワードを抽出すると共に、画像データから得られた物体及び文字から複数のキーワードを抽出し、これらのキーワードのスコア化により、コンテンツに紐付く最高スコアのキーワードを決定するものである。

【0018】

しかしながら、この発明では、ユーザに対して、必ずしも効果的なお薦めコンテンツ及び関連コンテンツを提示できるとは限らない。

【0019】

つまり、この発明では、キーワードに基づいてお薦めコンテンツ及び関連コンテンツが検索され提示されるため、これらのコンテンツはそのキーワードの影響を受けたもののみとなり、限定されてしまう。このため、ユーザは、最高スコアのキーワードに対応するコンテンツの提示を受けることができるが、その効果が十分ではないという問題があった。

【0020】

また、この発明では、ユーザがコンテンツの提示を受けた後に、例えばこれに紐付いて関連する字幕データ及び画像データ（サムネイル等）を提示することができない。これを実現するためには、データを再確認する必要があり、人手及び作業時間のコストがかかってしまうという問題があった。

【0021】

ここで、キーワード以外の字幕データ及び画像データもコンテンツに紐付けることに加え、前述の教育分野の例では、キーワードから例えば学習指導要領コードを用いてコンテンツを検索できることが望ましい。これは、ユーザが、例えば学習指導要領に基づく関連の放送番組コンテンツの提示を受けることにより、効果的な学習を実現できることが期待されるからである。尚、キーワードには、文字データだけでなく、英数記号、画像、図形、色等が含まれ、日本語以外の言語も含まれる。

【0022】

このような効果的な学習を実現するために、様々なデータと紐付いたコンテンツを提示可能とするデータベースの構築が必要となる。

【0023】

教育分野だけでなく、教育以外の分野においても、現在使用しているコンテンツに関連するコンテンツを、様々な領域から検索して提示するためには、様々なデータと紐付くコンテンツ同士を連携させるデータベースを構築する必要がある。構築したデータベースを用いることにより、様々な領域のコンテンツの連携が実現され、ユーザは、精度の高い所望のコンテンツを検索することができる。以下、コンテンツ同士を連携するために用いるデータを「知識データ」という。

【0024】

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成する知識データ生成装置及びプログラムを提供することにある。

【課題を解決するための手段】

【0025】

前記課題を解決するために、請求項１の知識データ生成装置は、コンテンツに関するキーワードを求め、前記キーワードに基づいて所望のコンテンツを検索する際に用いる知識データを生成する知識データ生成装置において、前記コンテンツが、字幕データを含む複数種類のデータにより構成されるものとして、前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から１または複数のキーワードを求めるデータ処理部と、前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部と、前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、当該キーワードを選択キーワードとするキーワード選択部と、前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記字幕データについて求めた前記キーワードと一致する場合、前記字幕データを、前記選択キーワードに紐付いた字幕データとして、前記選択キーワードに付与する字幕付与部と、前記コンテンツの識別情報、前記選択キーワード、及び前記字幕付与部により付与された前記選択キーワードに紐付いた字幕データを前記知識データとし、前記知識データを所定の構造化データに変換する構造化データ生成部と、前記構造化データ生成部により変換された前記構造化データをＤＢに登録するＤＢ登録部と、を備えたことを特徴とする。

【0026】

また、請求項２の知識データ生成装置は、コンテンツに関するキーワードを求め、前記キーワードに基づいて所望のコンテンツを検索する際に用いる知識データを生成する知識データ生成装置において、前記コンテンツが、画像データを含む複数種類のデータにより構成されるものとして、前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から１または複数のキーワードを求めるデータ処理部と、前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部と、前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、当該キーワードを選択キーワードとするキーワード選択部と、前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記画像データについて求めた前記キーワードと一致する場合、前記画像データを、前記選択キーワードに紐付いた画像データとして、前記選択キーワードに付与する画像付与部と、前記コンテンツの識別情報、前記選択キーワード、前記画像付与部により付与された前記選択キーワードに紐付いた画像データを前記知識データとし、前記知識データを所定の構造化データに変換する構造化データ生成部と、前記構造化データ生成部により変換された前記構造化データをＤＢに登録するＤＢ登録部と、を備えたことを特徴とする。

【0027】

また、請求項３の知識データ生成装置は、請求項１に記載の知識データ生成装置において、前記コンテンツが、前記字幕データに加え、画像データを含む複数種類のデータにより構成されるものとして、さらに、前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記画像データについて求めた前記キーワードと一致する場合、前記画像データを、前記選択キーワードに紐付いた画像データとして、前記選択キーワードに付与する画像付与部と、前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記画像データについて求めた前記キーワードと一致する場合、前記選択キーワードが一致する前記画像データの連続する複数のフレームにつき、最初のフレームの時刻を示す開始時刻及び最後のフレームの時刻を示す終了時刻を、前記選択キーワードに紐付いたシーンの時刻情報として、前記選択キーワードに付与するシーン時刻付与部と、を備え、前記構造化データ生成部が、前記コンテンツの識別情報、前記選択キーワード、前記字幕付与部により付与された前記選択キーワードに紐付いた字幕データ、前記画像付与部により付与された前記選択キーワードに紐付いた画像データ、及び前記シーン時刻付与部により付与された前記選択キーワードに紐付いたシーンの時刻情報を前記知識データとし、前記知識データを前記所定の構造化データに変換する、ことを特徴とする。

【0028】

また、請求項４の知識データ生成装置は、請求項１から３までのいずれか一項に記載の知識データ生成装置において、前記コンテンツを、教育分野の学習用のコンテンツとして、さらに、前記コンテンツの識別情報に基づいて、学習指導要領コードを検索するコード検索部と、前記コード検索部により検索された前記学習指導要領コードに基づいて、前記コンテンツに関連するコンテンツの識別情報を検索する関連コンテンツ検索部と、前記構造化データ生成部が、前記知識データに、前記コード検索部により検索された前記学習指導要領コード、及び前記関連コンテンツ検索部により検索された前記関連するコンテンツの識別情報を加えた新たな知識データを、前記所定の構造化データに変換する、ことを特徴とする。

【0029】

さらに、請求項５のプログラムは、コンテンツに関するキーワードを求め、前記キーワードに基づいて所望のコンテンツを検索する際に用いる知識データを生成する知識データ生成装置を構成するコンピュータを、前記コンテンツは、字幕データを含む複数種類のデータにより構成されるものとして、前記複数種類のデータのそれぞれについて、当該データに応じた所定の処理にて文章の文字列を検出し、前記文章の文字列から１または複数のキーワードを求めるデータ処理部、前記データ処理部により前記複数種類のデータについて求めた複数のキーワードのそれぞれをスコア化し、同一のキーワード毎に、全ての前記所定の処理を統合したスコアを算出するスコア算出部、前記複数のキーワードのうち、前記スコア算出部により算出された前記スコアが最大となる前記キーワードを選択し、当該キーワードを選択キーワードとするキーワード選択部、前記キーワード選択部により選択された前記選択キーワードが、前記データ処理部により前記字幕データについて求めた前記キーワードと一致する場合、前記字幕データを、前記選択キーワードに紐付いた字幕データとして、前記選択キーワードに付与する字幕付与部、前記コンテンツの識別情報、前記選択キーワード、及び前記字幕付与部により付与された前記選択キーワードに紐付いた字幕データを前記知識データとし、前記知識データを所定の構造化データに変換する構造化データ生成部、及び、前記構造化データ生成部により変換された前記構造化データをＤＢに登録するＤＢ登録部として機能させることを特徴とする。

【発明の効果】

【0030】

以上のように、本発明によれば、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成することができる。

【図面の簡単な説明】

【0031】

【図1】実施例１，２による知識データ生成装置を用いた全体システムの概要を説明する図である。

【図2】実施例１の知識データ生成装置の構成例を示すブロック図である。

【図3】実施例１の知識データ生成装置の処理例を示すフローチャートである。

【図4】入力部、データ処理部及びスコア算出部の処理例（ステップＳ３０１～Ｓ３０３）を示すフローチャートである。

【図5】メモリに格納された処理種類毎のキーワードの例（ステップＳ４１２）を示す図である。

【図6】スコア算出部によるスコア算出例（ステップＳ４１３）を示す図である。

【図7】メモリに格納されたキーワード毎のスコアの例（ステップＳ４１３）を示す図である。

【図8】キーワード選択部の処理例（ステップＳ３０４）を示すフローチャートである。

【図9】字幕付与部の処理例（ステップＳ３０５）を示すフローチャートである。

【図10】画像付与部の処理例（ステップＳ３０６）を示すフローチャートである。

【図11】シーン時刻付与部の処理例（ステップＳ３０７）を示すフローチャートである。

【図12】シーン時刻付与部から出力されるコンテンツ情報等のデータ例（ステップＳ１１０５）を示す図である。

【図13】ＲＤＦデータの記述例を説明する図である。

【図14】実施例２の知識データ生成装置の構成例を示すブロック図である。

【図15】実施例２の知識データ生成装置の処理例を示すフローチャートである。

【図16】コード検索部の処理例（ステップＳ１５０８）を示すフローチャートである。

【図17】コード検索部が用いるテーブルのデータ構成例を示す図である。

【図18】関連コンテンツ検索部の処理例（ステップＳ１５０９）を示すフローチャートである。

【図19】関連コンテンツ検索部が用いるテーブルのデータ構成例を示す図である。

【発明を実施するための形態】

【0032】

以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔本発明の概要〕
まず、本発明の概要について説明する。本発明は、コンテンツを構成する複数種類のマルチモーダルなデータを用いて、コンテンツとその他の様々なコンテンツとの間を繋げるために用いる知識データを生成するものである。

【0033】

図１は、実施例１，２による知識データ生成装置を用いた全体システムの概要を説明する図である。このシステムは、知識データ生成装置１（後述する実施例１の知識データ生成装置１Ａ及び実施例２の知識データ生成装置１Ｂ）、所定分野の領域のデータベース（ＤＢ）からなる外部データ２－１、図書館データ（図書館が管理しているデータ）のコンテンツからなる外部データ２－２、及び博物館データ（博物館が管理しているデータ）のコンテンツからなる外部データ２－３等、番組情報の放送番組コンテンツからなる放送局データ３－１、及びニュースの放送番組コンテンツからなる放送局データ３－２等、並びに、ユーザ端末４－１，４－２，４－３等を備えて構成される。

【0034】

知識データ生成装置１は、例えば放送局データ３－１から、放送番組コンテンツを構成する音声データ、画像データ及び字幕データを入力し、これらの複数種類のマルチモーダルなデータを用いて、当該放送番組コンテンツを表す最適な意味合いの語彙をキーワードとして求める。そして、知識データ生成装置１は、放送番組コンテンツを構成する画像データ及び字幕データから、キーワードに紐付いた画像データ等を取得する等して、当該放送番組コンテンツを識別するための情報（コンテンツＩＤ）等のコンテンツ情報、キーワード、画像データ等からなる構造化された知識データを生成する。

【0035】

知識データ生成装置１は、放送局データ３－１，３－２等、外部データ２－１，２－２，２－３等のコンテンツを用いて知識データを生成することで、知識データのＤＢを構築する。

【0036】

ユーザ端末４－１，４－２，４－３等を操作するユーザは、例えば放送局データ３－１における健康番組の放送番組コンテンツを視聴しているときに、当該放送番組コンテンツから選定したキーワード、画像データ等により、知識データのＤＢを用いた検索を行う。

【0037】

例えば、ユーザ端末４－１を操作するユーザは、「ＤＮＡ診断」に関連するコンテンツの取得を希望する場合、知識データのＤＢを用いた検索が行われることで、放送局データ３－２から「がんのＤＮＡ診断」のコンテンツ等を取得する。また、ユーザ端末４－２を操作するユーザは、放送局データ３－１から「生物ＤＮＡの構造」のコンテンツ、外部データ２－３から「人体ＩＩ遺伝子」のコンテンツ等を取得する。

【0038】

このように、知識データを用いることで、様々な分野のコンテンツ（外部データ２－１，２－２，２－３等及び放送局データ３－１，３－２等のコンテンツ）を繋げることができ、ユーザに対し、所望のコンテンツをレコメンドすることができる。また、ユーザの興味関心を広げた形で、コンテンツを提示することができる。

【0039】

つまり、知識データ生成装置１により、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成することができる。以下、外部データ２－１，２－２，２－３等を総称して外部データ２といい、放送局データ３－１，３－２等を総称して放送局データ３という。

【0040】

尚、図１では、外部データ２の例として所定分野の領域のデータ、図書館データ及び博物館データを示したが、外部データ２には、ＷＥＢページの情報、ＳＮＳの情報、アプリ情報、産学官から提供される様々なオープンデータ等が含まれる。また、放送局データ３の例として番組情報及びニュースを示したが、放送局データ３には、災害情報、取材情報、広報情報、イベント情報等が含まれる。さらに、放送局データ３には、これらの情報と組み合わせたＷＥＢページの情報、ＳＮＳの情報、アプリ情報等が含まれる。

【0041】

〔実施例１／知識データ生成装置１Ａ〕
まず、実施例１の知識データ生成装置１Ａについて説明する。実施例１の知識データ生成装置１Ａは、コンテンツに含まれる音声データ、画像データ及び字幕データを用いて複数のキーワードを求め、キーワード毎のスコアを算出し、複数のキーワードのうちスコアが最大のキーワードを選択し、キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報等を知識データとし、知識データをＲＤＦ（Resource Description Framework）データに変換するものである。

【0042】

図２は、実施例１の知識データ生成装置１Ａの構成例を示すブロック図であり、図３は、実施例１の知識データ生成装置１Ａの処理例を示すフローチャートである。

【0043】

知識データ生成装置１Ａは、入力部１０、データ処理部１１、メモリ１２、スコア算出部１３、キーワード選択部１４、字幕付与部１５、画像付与部１６、シーン時刻付与部１７、ＲＤＦ生成部（構造化データ生成部）１８及びＤＢ登録部１９を備えている。データ処理部１１は、音声処理部１１－１、画像物体処理部１１－２、画像文字処理部１１－３及び字幕処理部１１－４を備えている。

【0044】

入力部１０は、外部データ２及び放送局データ３のうち例えば放送局データ３から、放送番組コンテンツを識別するための情報（コンテンツＩＤ）等のコンテンツ情報、及び、放送番組コンテンツのデータ（音声データ、画像データ及び字幕データ）を入力する（ステップＳ３０１）。そして、入力部１０は、コンテンツ情報をキーワード選択部１４に出力する。

【0045】

入力部１０は、放送番組コンテンツのデータから音声データ、画像データ及び字幕データを抽出し、これらのデータをデータ処理部１１に出力する。具体的には、入力部１０は、音声データを音声処理部１１－１に、画像データを画像物体処理部１１－２及び画像文字処理部１１－３に、字幕データを字幕処理部１１－４にそれぞれ出力する。

【0046】

データ処理部１１は、入力部１０から音声データ、画像データ及び字幕データを入力し、放送番組コンテンツの動画像のフレーム毎に、これらのマルチモーダルなデータを用いて、放送番組コンテンツを表す最適な意味合いの語彙を、音声認識処理等の処理種類毎のキーワードとして求める（ステップＳ３０２）。そして、データ処理部１１は、フレーム毎のキーワードをメモリ１２に格納する。

【0047】

具体的には、音声処理部１１－１は、入力部１０から音声データを入力し、フレーム毎に、当該音声データに対して音声認識処理を施し、キーワードを求める。そして、音声処理部１１－１は、音声認識処理により求めたフレーム毎のキーワードをメモリ１２に格納する。音声データに対する音声認識処理にてキーワードを求める処理は既知であるため、ここでは詳細な説明を省略する。

【0048】

画像物体処理部１１－２は、入力部１０から画像データを入力し、フレーム毎に、当該画像データに対して物体認識処理を施し、キーワードを求める。そして、画像物体処理部１１－２は、画像データに対する物体認識処理により求めたフレーム毎のキーワードをメモリ１２に格納する。画像データに対する物体認識処理にてキーワードを求める処理は既知であるため、ここでは詳細な説明を省略する。

【0049】

また、画像物体処理部１１－２は、画像付与部１６からキーワード（スコアが最大のキーワード）を含む要求を入力すると、当該キーワードに紐付く（対応する）画像データが存在する場合、当該画像データを画像付与部１６に出力する。

【0050】

ここで、キーワードに紐付く画像データとは、放送番組コンテンツの動画像における全てのフレームのうち、画像物体処理部１１－２により当該キーワードであるスコアが最大のキーワードを求めた際に用いた１または複数のフレームである。

【0051】

また、画像物体処理部１１－２は、シーン時刻付与部１７からキーワード（スコアが最大のキーワード）を含む要求を入力すると、当該キーワードに紐付く画像データが存在する場合、当該キーワードに紐付く画像データのシーンの時刻情報（開始時刻及び終了時刻）をシーン時刻付与部１７に出力する。

【0052】

ここで、キーワードに紐付く画像データのシーンの時刻情報とは、放送番組コンテンツの動画像における全てのフレームのうち、画像物体処理部１１－２により当該キーワードを求めた際に用いた連続する複数のフレームについて、最初のフレームの時刻を示す開始時刻及び最後のフレームの時刻を示す終了時刻である。

【0053】

画像文字処理部１１－３は、入力部１０から画像データを入力し、フレーム毎に、画像データに対して文字認識処理及び形態素解析処理を施し、キーワードを求める。そして、画像文字処理部１１－３は、画像データに対する文字認識処理及び形態素解析処理により求めたフレーム毎のキーワードをメモリ１２に格納する。画像データに対する文字認識処理及び形態素解析処理にてキーワードを求める処理は既知であるため、ここでは詳細な説明を省略する。

【0054】

字幕処理部１１－４は、入力部１０から字幕データを入力し、フレーム毎に、字幕データに対して形態素解析処理を施し、キーワードを求める。そして、字幕処理部１１－４は、字幕データに対する形態素解析処理により求めたフレーム毎のキーワードをメモリ１２に格納する。字幕データに対する形態素解析処理にてキーワードを求める処理は既知であるため、ここでは詳細な説明を省略する。

【0055】

また、字幕処理部１１－４は、字幕付与部１５からキーワード（スコアが最大のキーワード）を含む要求を入力すると、当該キーワードに紐付く字幕データが存在する場合、当該字幕データを字幕付与部１５に出力する。

【0056】

ここで、キーワードに紐付く字幕データとは、放送番組コンテンツにおける全て字幕データのうち、字幕処理部１１－４により当該キーワードを求めた際に用いた字幕データである。

【0057】

これにより、メモリ１２には、放送番組コンテンツの動画像のフレーム毎に、音声データに対する音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理及び形態素解析処理（以下、「画像データに対する文字認識処理」という。）、並びに字幕データに対する形態素解析処理（以下、「字幕データに対する字幕解析処理」という。）により得られたそれぞれのキーワードが、リスト化された状態で格納される。

【0058】

尚、データ処理部１１は、放送番組コンテンツを構成する音声データ、画像データ及び字幕データのうちの任意の２つのデータを用いて、キーワードを求めるようにしてもよい。また、データ処理部１１は、音声データ、画像データ及び字幕データ以外のデータ（例えば文字スーパー）を用いて、キーワードを求めるようにしてもよい。つまり、データ処理部１１は、放送番組コンテンツを構成するマルチモーダルなデータを用いてキーワードを求めることができれば、データの種類は何でもよい。

【0059】

また、前述の例では、データ処理部１１は、音声データに対する音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理、及び字幕データに対する字幕解析処理を行い、各処理種類に応じたキーワードを求めるようにした。これに対し、データ処理部１１は、これらの処理以外の他の処理を行うようにしてもよい。コンテンツを構成するデータに対する処理によってキーワードを求めることができれば、当該処理は何でもよい。また、これらの音声認識処理、物体認識処理、文字認識処理及び字幕解析処理等に用いる解析モジュールは、どのようなモジュールであってもよい。

【0060】

スコア算出部１３は、メモリ１２から、フレーム毎に、音声認識処理、物体認識処理、文字認識処理及び字幕解析処理により得られたそれぞれのキーワードを読み出す。また、スコア算出部１３は、音声認識処理、物体認識処理、文字認識処理及び字幕解析処理についての重み（処理種類毎の重み）を入力する。処理種類毎の重みは予め設定され、ユーザの操作により変更することができる。

【0061】

スコア算出部１３は、１フレームにつき、同一のキーワード毎に、音声認識処理、物体認識処理、文字認識処理及び字幕解析処理のそれぞれについて、当該キーワードの個数をカウントする。そして、スコア算出部１３は、同一のキーワード毎に、各処理種類のカウント値に重みを乗算することで、各処理種類の乗算結果を求め、各処理種類の乗算結果を加算（マージ）することで、キーワード毎の１フレームのスコアを求める（ステップＳ３０３）。スコア算出部１３は、同一のキーワード毎に、１フレームのスコアをメモリ１２に格納する。

【0062】

これにより、メモリ１２には、後述する図７に示すとおり、フレーム毎に、同一のキーワードのスコア（同一のキーワード毎の各処理種類につき合計したスコア）が格納される。

【0063】

尚、スコア算出部１３は、Ｎ個の連続するフレーム毎に（Ｎフレーム毎に）、スコアを集計するようにしてもよい。つまり、スコア算出部１３は、メモリ１２から、予め設定されたＮ個の連続するフレームについて、キーワード毎の１フレームのスコアを読み出し、キーワード毎に、Ｎ個の連続するフレームのスコアを加算することで、Ｎフレームのスコアを求める。Ｎは、２以上の整数である。スコア算出部１３は、Ｎフレームのスコアを、メモリ１２に格納する。

【0064】

これにより、ばらつきを抑えたスコアを得ることができ、メモリ１２には、Ｎフレーム毎に、同一のキーワードのスコア（同一のキーワード毎の各処理種類につき合計したスコア）が格納される。また、スコア算出部１３によるスコアの計算手法は、これらの手法に限定されるものではなく、他の手法を用いるようにしてもよい。

【0065】

キーワード選択部１４は、入力部１０からコンテンツ情報を入力すると共に、メモリ１２から、キーワード毎に、当該キーワード及び１フレームのスコア（後述する図７の例を参照）を読み出す。尚、キーワード選択部１４は、Ｎフレーム毎にスコアを集計した場合には、キーワード及びＮフレームのスコアを読み出す。

【0066】

キーワード選択部１４は、読み出した全てのキーワードのうち、スコアが最大のキーワードを選択する（ステップＳ３０４）。そして、キーワード選択部１４は、後述する図７においては当該１フレームを特定するための情報（Ｎフレーム毎にスコアを集計した場合には当該Ｎフレームを特定するための情報）を、コンテンツ情報に追加する。

【0067】

キーワード選択部１４は、当該放送番組コンテンツを識別するための情報等に加え、当該１フレーム（または当該Ｎフレーム）を特定するための情報を含むコンテンツ情報、及び（選択された）キーワードを字幕付与部１５に出力する。このようにして、全てのフレームのそれぞれについて、フレーム毎に、スコアが最大のキーワードが選択される。

【0068】

字幕付与部１５は、フレーム毎に、キーワード選択部１４からコンテンツ情報及び（選択された）キーワードを入力し、当該キーワード（スコアが最大のキーワード）に紐付いた字幕データを取得するための要求を、キーワードと共に字幕処理部１１－４に出力する。

【0069】

字幕付与部１５は、字幕処理部１１－４から、当該キーワードに紐付いた字幕データ（当該フレームに対応する字幕データ）を入力すると、字幕データをキーワードに付与する（ステップＳ３０５）。そして、字幕付与部１５は、コンテンツ情報、（選択された）キーワード、及び当該キーワードに紐付いた字幕データを画像付与部１６に出力する。

【0070】

画像付与部１６は、字幕付与部１５から、フレーム毎に、コンテンツ情報、（選択された）キーワード及び字幕データを入力する。そして、画像付与部１６は、当該キーワード（スコアが最大のキーワード）に紐付いた画像データを取得するための要求を、キーワードと共に画像物体処理部１１－２に出力する。

【0071】

画像付与部１６は、画像物体処理部１１－２から、当該キーワードに紐付いた画像データ（当該フレームに対応する画像データ（画像データのフレーム））を入力すると、画像データをキーワードに付与する（ステップＳ３０６）。そして、画像付与部１６は、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ及び画像データをシーン時刻付与部１７に出力する。

【0072】

シーン時刻付与部１７は、画像付与部１６から、フレーム毎に、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ及び画像データを入力する。そして、シーン時刻付与部１７は、当該キーワード（スコアが最大のキーワード）に紐付いた画像データのシーンの時刻情報を取得するための要求を、キーワードと共に画像物体処理部１１－２に出力する。

【0073】

シーン時刻付与部１７は、画像物体処理部１１－２から、当該キーワードに紐付いたシーンの時刻情報を入力すると、シーンの時刻情報をキーワードに付与する（ステップＳ３０７）。そして、シーン時刻付与部１７は、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報を知識データとして、これらのデータからなる知識データをＲＤＦ生成部１８に出力する。

【0074】

ＲＤＦ生成部１８は、シーン時刻付与部１７から、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報からなる知識データを入力する。そして、ＲＤＦ生成部１８は、例えば知識データをシーン毎に集計し、シーン毎に集計した知識データをＲＤＦデータに変換することで、ＲＤＦデータを生成し（ステップＳ３０８）、ＲＤＦデータをＤＢ登録部１９に登録する（ステップＳ３０９）。これにより、ＤＢ登録部１９には、知識データがＲＤＦデータとして登録されることとなる。

【0075】

尚、ＲＤＦ生成部１８は、シーン時刻付与部１７から、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ及び画像データからなる知識データを入力する場合もあり、コンテンツ情報、（選択された）キーワード、及び当該キーワードに紐付いた字幕データからなる知識データを入力する場合もあり、コンテンツ情報及びキーワードからなる知識データを入力する場合もある。

【0076】

（入力部１０、データ処理部１１及びスコア算出部１３）
次に、図２に示した入力部１０、データ処理部１１及びスコア算出部１３の処理について詳細に説明する。図４は、入力部１０、データ処理部１１及びスコア算出部１３の処理例を示すフローチャートであり、図３に示したステップＳ３０１～Ｓ３０３の処理に対応している。これらの処理は、実施例１だけでなく、後述する実施例２にも適用がある。後述する図８～図１１についても同様である。

【0077】

入力部１０は、例えば放送局データ３から、放送番組コンテンツを構成する音声データ、画像データ及び字幕データ等を入力する（ステップＳ４０１，Ｓ４０２，Ｓ４０３）。

【0078】

音声処理部１１－１は、ステップＳ４０１から移行して、放送番組コンテンツの動画像における１フレームに対応する音声データに対する音声認識処理を行い（ステップＳ４０４）、音声認識処理が正常に行われたか否かを判定する（ステップＳ４０５）。

【0079】

音声処理部１１－１は、ステップＳ４０５において、音声認識処理が正常に行われたと判定した場合（ステップＳ４０５：Ｙ）、ステップＳ４１２へ移行する。一方、音声処理部１１－１は、ステップＳ４０５において、音声認識処理が正常に行われなかったと判定した場合（ステップＳ４０５：Ｎ）、当該音声処理部１１－１の処理を終了する。

【0080】

画像物体処理部１１－２は、ステップＳ４０２から移行して、放送番組コンテンツの動画像における１フレームの画像データに対する物体認識処理を行い（ステップＳ４０６）、物体認識処理が正常に行われたか否かを判定する（ステップＳ４０７）。

【0081】

画像物体処理部１１－２は、ステップＳ４０７において、物体認識処理が正常に行われたと判定した場合（ステップＳ４０７：Ｙ）、ステップＳ４１２へ移行する。一方、画像物体処理部１１－２は、ステップＳ４０７において、物体認識処理が正常に行われなかったと判定した場合（ステップＳ４０７：Ｎ）、当該画像物体処理部１１－２の処理を終了する。

【0082】

画像文字処理部１１－３は、ステップＳ４０２から移行して、放送番組コンテンツの動画像における１フレームの画像データに対する文字認識処理を行い（ステップＳ４０８）、文字認識処理が正常に行われたか否かを判定する（ステップＳ４０９）。

【0083】

画像文字処理部１１－３は、ステップＳ４０９において、文字認識処理が正常に行われたと判定した場合（ステップＳ４０９：Ｙ）、ステップＳ４１２へ移行する。一方、画像文字処理部１１－３は、ステップＳ４０９において、文字認識処理が正常に行われなかったと判定した場合（ステップＳ４０９：Ｎ）、当該画像文字処理部１１－３の処理を終了する。

【0084】

字幕処理部１１－４は、ステップＳ４０３から移行して、放送番組コンテンツの動画像における１フレームに対応する字幕データに対して字幕解析処理を行い（ステップＳ４１０）、字幕解析処理が正常に行われたか否かを判定する（ステップＳ４１１）。

【0085】

字幕処理部１１－４は、ステップＳ４１１において、字幕解析処理が正常に行われたと判定した場合（ステップＳ４１１：Ｙ）、ステップＳ４１２へ移行する。一方、字幕処理部１１－４は、ステップＳ４１１において、字幕解析処理が正常に行われなかったと判定した場合（ステップＳ４１１：Ｎ）、当該字幕処理部１１－４の処理を終了する。

【0086】

音声処理部１１－１、画像物体処理部１１－２、画像文字処理部１１－３及び字幕処理部１１－４は、ステップＳ４０５（Ｙ），Ｓ４０７（Ｙ），Ｓ４０９（Ｙ），Ｓ４１１（Ｙ）から移行して、それぞれの処理結果からキーワードを求めてリスト化し、リスト化したキーワード（処理種類毎のキーワード）をメモリ１２に格納する（ステップＳ４１２）。

【0087】

具体的には、音声処理部１１－１は、音声データに対する音声認識処理により、音声についての文章の文字列を検出し、検出された文章の文字列からキーワードを求める。また、画像物体処理部１１－２は、画像データに対する物体認識処理により物体を含む領域を検出し、当該領域から物体の名称を含む文章の文字列を検出し、検出された文章の文字列からキーワードを求める。例えば物体が「自動車」の場合、物体の名称を含む文章の文字列として「自動車が走っています。」等が検出される。

【0088】

画像文字処理部１１－３は、画像データに対する文字認識処理により、文字を含む文章の文字列を検出し、検出された文章の文字列からキーワードを求める。また、字幕処理部１１－４は、字幕データに対する字幕解析処理により、字幕についての文章の文字列を検出し、検出された文章の文字列からキーワードを求める。

【0089】

これにより、放送番組コンテンツの動画像における１フレームについて、それぞれの処理種類（音声データに対する音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理、及び字幕データに対する字幕解析処理）により得られた１または複数のキーワードが、リスト化された状態でメモリ１２に格納される。

【0090】

図５は、メモリ１２に格納された処理種類毎のキーワードの例を示す図であり、図４に示したステップＳ４１２の処理により得られたキーワードの例を示している。このメモリ１２には、音声データに対する音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理、及び字幕データに対する字幕解析処理の処理種類毎に、フレーム毎の１または複数のキーワードが格納されている。

【0091】

例えば、フレーム番号が１において、キーワードとして、音声認識処理につき「スノーボード」、物体認識処理につき「スキー」「スキー」「スケートボード」「卓球」、文字認識処理につき「スキー」、字幕解析処理につき「スキー」が格納されている。

【0092】

物体認識処理につき２個の「スキー」が格納されているのは、フレーム番号が１の画像データにおいて、例えば２人がスキーをしている状態が表れていることを示している。

【0093】

図４に戻って、スコア算出部１３は、ステップＳ４１２の後、メモリ１２から、当該フレームについての音声認識処理、物体認識処理、文字認識処理及び字幕解析処理のキーワードを読み出す。

【0094】

スコア算出部１３は、同一のキーワード毎に、音声認識処理、物体認識処理、文字認識処理及び字幕解析処理のそれぞれについて、当該同一のキーワードの個数をカウントする。そして、スコア算出部１３は、同一のキーワード毎の各処理種類について、カウント値に予め設定された重み（処理種類毎の重み）を乗算することで、キーワードをスコア化し、各処理種類の乗算結果を加算することで、同一のキーワード毎に、各処理種類を統合した１フレームのスコアを求め、メモリ１２に格納する（ステップＳ４１３）。

【0095】

図６は、スコア算出部１３によるスコア算出例を示す図であり、図４に示したステップＳ４１３の処理により算出された１フレームのスコアの例を示している。音声認識処理の重みを０．５、画像データに対する物体認識処理の重みを０．８、画像データに対する文字認識処理の重みを０．７、字幕解析処理の重みを０．９とする。

【0096】

また、音声処理部１１－１の音声認識処理により、１個の「スノーボード」等のキーワードが生成され、画像物体処理部１１－２の物体認識処理により、２個の「スキー」、１個の「スケートボード」及び１個の「卓球」等のキーワードが生成されたものとする。さらに、画像文字処理部１１－３の文字認識処理により、１個の「スキー」等のキーワードが生成され、字幕処理部１１－４の字幕解析処理により、１個の「スキー」等のキーワードが生成されたものとする。

【0097】

この場合、スコア算出部１３により、「スキー」のキーワードについて、物体認識処理により得られたキーワードの数である２個に、物体認識処理の重みである０．８が乗算されることで、物体認識処理のスコアとして１．６が得られる。また、スコア算出部１３により、「スキー」のキーワードについて、文字認識処理により得られたキーワードの数である１個に、文字認識処理の重みである０．７が乗算されることで、文字認識処理のスコアとして０．７が得られる。さらに、スコア算出部１３により、「スキー」のキーワードについて、字幕解析処理により得られたキーワードの数である１個に、字幕解析処理の重みである０．９が乗算されることで、字幕解析処理のスコアとして０．９が得られる。

【0098】

そして、スコア算出部１３により、これらのスコア１．６，０．７，０．９が加算されることで、「スキー」のキーワードについて、１フレームのスコアとして３．２が得られる。

【0099】

同様に、スコア算出部１３により、「スノーボード」のキーワードについて、１フレームのスコアとして０．５が得られ、「スケートボード」「卓球」のキーワードについて、１フレームのスコアとしてそれぞれ０．８が得られる。

【0100】

尚、「ボール」等のキーワードについては、１フレームのスコアは０である。これらのキーワードは、メモリ１２に予め設定されているものとする。

【0101】

図４に戻って、１フレームの音声データ、画像データ及び字幕データについて、ステップＳ４０５（Ｎ）にて音声認識処理が正常に行われず、かつステップＳ４０７（Ｎ）にて物体認識処理が正常に行われず、かつステップＳ４０９（Ｎ）により文字認識処理が正常に行われず、かつステップＳ４１１（Ｎ）により字幕解析処理が正常に行われていない場合には、ステップＳ４１２，Ｓ４１３の処理は行われない。

【0102】

図７は、メモリ１２に格納されたキーワード毎のスコアの例を示す図であり、図４に示したステップＳ４１３の処理により得られたスコアの例を示している。このメモリ１２には、複数のキーワードのそれぞれについて、フレーム毎のスコアが格納されている。

【0103】

例えば、フレーム番号が１において、キーワードが「スキー」のスコアとして３．２、キーワードが「スノーボード」のスコアとして０．５、キーワードが「スケートボード」のスコアとして０．８、キーワードが「卓球」のスコアとして０．８が格納されている。

【0104】

尚、「ボール」等のキーワードについては、フレーム番号が１におけるスコアは０である。これらのキーワードは、メモリ１２に予め設定されているものとする。

【0105】

図４に戻って、字幕処理部１１－４は、字幕付与部１５からキーワードを含む要求を入力したか否かを判定し、画像物体処理部１１－２は、画像付与部１６及びシーン時刻付与部１７からキーワードを含む要求を入力したか否かを判定する（ステップＳ４１４）。字幕付与部１５、画像付与部１６及びシーン時刻付与部１７から入力するキーワードは、当該フレームにおいて、スコアが最大であるとして選択されたキーワード（以下のステップＳ４１４（Ｙ）の処理の説明において、「選択キーワード」という。）である。

【0106】

字幕処理部１１－４は、ステップＳ４１４において、字幕付与部１５から選択キーワードを含む要求を入力したと判定した場合（ステップＳ４１４：Ｙ）、当該字幕処理部１１－４によりステップＳ４１２にて求めたキーワードが選択キーワードであるときに、そのキーワードを求めた際に用いた字幕データを、選択キーワードに紐付いた字幕データとして特定し、ステップＳ４１５へ移行する。

【0107】

また、画像物体処理部１１－２は、ステップＳ４１４において、画像付与部１６から選択キーワードを含む要求を入力したと判定した場合（ステップＳ４１４：Ｙ）、当該画像物体処理部１１－２によりステップＳ４１２にて求めたキーワードが選択キーワードであるときに、そのキーワードを求めた際に用いた画像データ（のフレーム）を、選択キーワードに紐付いた画像データとして特定し、ステップＳ４１５へ移行する。

【0108】

また、画像物体処理部１１－２は、ステップＳ４１４において、シーン時刻付与部１７から選択キーワードを含む要求を入力したと判定した場合（ステップＳ４１４：Ｙ）、当該画像物体処理部１１－２によりステップＳ４１２にて求めたキーワードが選択キーワードであるときに、そのキーワードを求めた際に用いた画像データのシーンの時刻情報（開始時刻及び終了時刻）を、選択キーワードに紐付いた時刻情報として特定し、ステップＳ４１５へ移行する。

【0109】

シーンの時刻情報は、画像物体処理部１１－２による画像データに含まれる物体からキーワードを求める物体認識処理において、キーワードが選択キーワードである場合に、当該選択キーワードに紐付く画像データに含まれる物体が出現した開始時刻及び終了時刻である。

【0110】

字幕処理部１１－４は、ステップＳ４１４（Ｙ）から移行して、字幕データを字幕付与部１５に出力し、画像物体処理部１１－２は、ステップＳ４１４（Ｙ）から移行して、画像データを画像付与部１６に出力し、シーンの時刻情報をシーン時刻付与部１７に出力する（ステップＳ４１５）。

【0111】

（キーワード選択部１４）
次に、図２に示したキーワード選択部１４の処理について詳細に説明する。図８は、キーワード選択部１４の処理例を示すフローチャートであり、図３に示したステップＳ３０４の処理に対応している。図８に示す処理は、フレーム毎に行われる。

【0112】

キーワード選択部１４は、メモリ１２から、処理対象のフレームについて、図７に示したキーワードに対応する１フレームのスコアを読み出す（ステップＳ８０１）。

【0113】

キーワード選択部１４は、当該キーワードについて、ステップＳ８０１にて読み出したスコアが最大値よりも大きいか否かを判定する（ステップＳ８０２）。尚、最大値は、初期値として０が設定されているものとする。

【0114】

キーワード選択部１４は、ステップＳ８０２において、ステップＳ８０１にて読み出したスコアが最大値よりも大きいと判定した場合（ステップＳ８０２：Ｙ）、そのスコアを最大値に設定することで、最大値を更新し（ステップＳ８０３）、ステップＳ８０４へ移行する。

【0115】

一方、キーワード選択部１４は、ステップＳ８０２において、そのスコアが最大値よりも大きくないと判定した場合（ステップＳ８０２：Ｎ）、ステップＳ８０４へ移行する。

【0116】

キーワード選択部１４は、ステップＳ８０３またはステップＳ８０２（Ｎ）から移行して、処理対象のフレームにつき全てのキーワードの処理が完了したか否かを判定する（ステップＳ８０４）。

【0117】

キーワード選択部１４は、ステップＳ８０４において、全てのキーワードについての処理が完了していないと判定した場合（ステップＳ８０４：Ｎ）、処理対象のフレームについて、メモリ１２に格納された次のキーワード（図７を参照）を設定し（ステップＳ８０５）、ステップＳ８０１へ移行する。そして、キーワード選択部１４は、メモリ１２から、次のキーワードに対応する１フレームのスコアを読み出す。そして、キーワード選択部１４は、ステップＳ８０２，Ｓ８０３の処理を行う。

【0118】

一方、キーワード選択部１４は、ステップＳ８０４において、全てのキーワードについての処理が完了したと判定した場合（ステップＳ８０４：Ｙ）、メモリ１２に格納された全てキーワードのうち、スコアが最大のキーワード（ステップＳ８０３にて最後に最大値を更新したときの１フレームのスコアに対応するキーワード）を選択する（ステップＳ８０６）。図７の例では、キーワード選択部１４により、フレーム番号が１について、１フレームのスコアが最大（３．２）である「スキー」のキーワードが選択される。

【0119】

キーワード選択部１４は、コンテンツ情報及び（選択された）キーワードを字幕付与部１５に出力する（ステップＳ８０７）。

【0120】

尚、スコア算出部１３によりＮフレーム毎にスコアが集計された場合、キーワード選択部１４は、ステップＳ８０１において、キーワードに対応するＮフレームのスコアを読み出し、Ｎフレームを単位としたステップＳ８０２～Ｓ８０７の処理を行う。Ｎフレーム毎に集計されたスコアは、ばらつきが少ないため、安定したキーワードを選択することができる。結果として、後段のＲＤＦ生成部１８において、精度の高い知識データをＲＤＦデータとして生成することができる。

【0121】

（字幕付与部１５）
次に、図２に示した字幕付与部１５の処理について詳細に説明する。図９は、字幕付与部１５の処理例を示すフローチャートであり、図３に示したステップＳ３０５の処理に対応している。

【0122】

字幕付与部１５は、キーワード選択部１４からコンテンツ情報及び（選択された）キーワードを入力する（ステップＳ９０１）。そして、字幕付与部１５は、当該キーワードに紐付いた字幕データを取得するための要求を、キーワードと共に字幕処理部１１－４に出力する（ステップＳ９０２）。

【0123】

字幕付与部１５は、字幕処理部１１－４から、要求に応じた当該キーワードに紐付いた字幕データを入力したか否かを判定する（ステップＳ９０３）。

【0124】

字幕付与部１５は、ステップＳ９０３において、字幕処理部１１－４から字幕データを入力したと判定した場合（ステップＳ９０３：Ｙ）、入力した字幕データをキーワードに付与する（ステップＳ９０４）。

【0125】

ここで、字幕処理部１１－４は、字幕付与部１５からキーワードと共に要求を入力し、当該キーワードであるスコアが最大のキーワードが、字幕データから生成したキーワードと一致する場合に、要求に応じた結果として当該字幕データを字幕付与部１５に出力する。この字幕データは、図４に示したステップＳ４１１において、字幕解析処理が正常に行われたと判定され（ステップＳ４１１：Ｙ）、かつスコアが最大のキーワードに対応するデータである。字幕付与部１５は、字幕処理部１１－４から字幕データを入力し、字幕データをキーワードに紐付ける。

【0126】

字幕付与部１５は、コンテンツ情報、（選択された）キーワード、及び当該キーワードに紐付いた字幕データを画像付与部１６に出力する（ステップＳ９０５）。

【0127】

一方、字幕付与部１５は、ステップＳ９０３において、字幕処理部１１－４から字幕データを入力していないと判定した場合（ステップＳ９０３：Ｎ）、コンテンツ情報及び（選択された）キーワードを画像付与部１６に出力する（ステップＳ９０６）。つまり、字幕処理部１１－４は、要求と共に入力したキーワードが、字幕データから生成したキーワードと一致しない場合に、要求に応じた結果として字幕データなしを字幕付与部１５に出力する。この場合に、字幕付与部１５は、字幕処理部１１－４から字幕データなしを入力することで、字幕データを入力していないと判定する。

【0128】

このように、字幕付与部１５により、スコアが最大である選択されたキーワードと関係性のある字幕データが取得され、当該キーワードに字幕データが紐付けられることとなる。

【0129】

このような処理は、キーワード選択部１４により選択されたフレーム毎のキーワードについて行われる。つまり、当該キーワードに紐付いた字幕データがある場合は、字幕データが字幕付与部１５から画像付与部１６に出力される。

【0130】

（画像付与部１６）
次に、図２に示した画像付与部１６の処理について詳細に説明する。図１０は、画像付与部１６の処理例を示すフローチャートであり、図３に示したステップＳ３０６の処理に対応している。

【0131】

画像付与部１６は、字幕付与部１５から、コンテンツ情報、（選択された）キーワード、及び当該キーワードに紐付いた字幕データ（または、コンテンツ情報及び（選択された）キーワード）を入力する（ステップＳ１００１）。そして、画像付与部１６は、当該キーワードに紐付いた画像データを取得するための要求を、キーワードと共に画像物体処理部１１－２に出力する（ステップＳ１００２）。

【0132】

画像付与部１６は、画像物体処理部１１－２から、要求に応じた当該キーワードに紐付いた画像データを入力したか否かを判定する（ステップＳ１００３）。

【0133】

画像付与部１６は、ステップＳ１００３において、画像物体処理部１１－２から画像データを入力したと判定した場合（ステップＳ１００３：Ｙ）、入力した画像データをキーワードに付与する（ステップＳ１００４）。

【0134】

ここで、画像物体処理部１１－２は、画像付与部１６からキーワードと共に要求を入力し、当該キーワードであるスコアが最大のキーワードが、画像データから生成したキーワードと一致する場合に、要求に応じた結果として当該画像データを画像付与部１６に出力する。この画像データは、図４に示したステップＳ４０７において、物体認識処理が正常に行われたと判定され（ステップＳ４０７：Ｙ）、かつスコアが最大のキーワードに対応するデータである。画像付与部１６は、画像物体処理部１１－２から画像データを入力し、画像データをキーワードに紐付ける。

【0135】

画像付与部１６は、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ及び画像データをシーン時刻付与部１７に出力する（ステップＳ１００５）。

【0136】

一方、画像付与部１６は、ステップＳ１００３において、画像物体処理部１１－２から画像データを入力していないと判定した場合（ステップＳ１００３：Ｎ）、コンテンツ情報、（選択された）キーワード、及び当該キーワードに紐付いた字幕データ（または、コンテンツ情報及び（選択された）キーワード）をシーン時刻付与部１７に出力する（ステップＳ１００６）。つまり、画像物体処理部１１－２は、要求と共に入力したキーワードが、画像データから生成したキーワードと一致しない場合に、要求に応じた結果として画像データなしを画像付与部１６に出力する。この場合に、画像付与部１６は、画像物体処理部１１－２から画像データなしを入力することで、画像データを入力していないと判定する。

【0137】

このように、画像付与部１６により、スコアが最大である選択されたキーワードと関係性のある画像データ、つまり、画像物体処理部１１－２の物体認識処理により認識された物体を含む画像データのうち効果的な画像データが取得され、当該キーワードに画像データが紐付けられることとなる。

【0138】

このような処理は、キーワード選択部１４により選択されたフレーム毎のキーワードについて行われる。つまり、キーワードに紐付いた画像データがある場合は、画像データが画像付与部１６からシーン時刻付与部１７に出力される。

【0139】

（シーン時刻付与部１７）
次に、図２に示したシーン時刻付与部１７の処理について詳細に説明する。図１１は、シーン時刻付与部１７の処理例を示すフローチャートであり、図３に示したステップＳ３０７の処理に対応している。

【0140】

シーン時刻付与部１７は、画像付与部１６から、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ及び画像データ（または、コンテンツ情報、（選択された）キーワード及び字幕データ）（または、コンテンツ情報及び（選択された）キーワード）を入力する（ステップＳ１１０１）。そして、シーン時刻付与部１７は、当該キーワードに紐付いた画像データのシーンの時刻情報を取得するための要求を、キーワードと共に画像物体処理部１１－２に出力する（ステップＳ１１０２）。

【0141】

シーン時刻付与部１７は、画像物体処理部１１－２から、要求に応じた当該キーワードに紐付いたシーンの時刻情報を入力したか否かを判定する（ステップＳ１１０３）。

【0142】

シーン時刻付与部１７は、ステップＳ１１０３において、画像物体処理部１１－２からシーンの時刻情報を入力したと判定した場合（ステップＳ１１０３：Ｙ）、入力したシーンの時刻情報をキーワードに付与する（ステップＳ１１０４）。

【0143】

ここで、画像物体処理部１１－２は、シーン時刻付与部１７からキーワードと共に要求を入力し、当該キーワードであるスコアが最大のキーワードが、画像データから生成したキーワードと一致する場合に、当該画像データに含まれる物体からキーワードを生成する物体認識処理において、同一のキーワードが生成された連続する複数のフレームの画像データにおいて物体が出現したシーンの開始時刻及び終了時刻を抽出してこれを時刻情報とし、要求に応じた結果として当該シーンの時刻情報をシーン時刻付与部１７に出力する。このシーンの時刻情報は、図４に示したステップＳ４０７にて物体認識処理が正常に行われ（ステップＳ４０７：Ｙ）、かつスコアが最大のキーワードに対応する画像データ（この場合は複数フレーム）において、最初のフレームの時刻及び最後のフレームの時刻である。シーン時刻付与部１７は、画像物体処理部１１－２からシーンの時刻情報を入力し、シーンの時刻情報をキーワードに紐付ける。

【0144】

シーン時刻付与部１７は、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報を知識データとしてＲＤＦ生成部１８に出力する（ステップＳ１１０５）。

【0145】

図１２は、シーン時刻付与部１７から出力されるコンテンツ情報等のデータ例を示す図であり、図１１に示したステップＳ１１０５の処理に対応している。

【0146】

図１２に示すように、例えばコンテンツ情報に含まれるコンテンツＩＤ「ＡＡＡ」について、（選択された）キーワード「２次関数」、並びに当該キーワード「２次関数」に紐付いた字幕データ「ｘが２乗になった、つまりｘの・・・」、画像データ「（ｙ＝ｘ²等が表示されたデータ）」及びシーンの時刻情報「開始時刻h1:m1:s1:f1／終了時刻h1:m1:s2:f2」が、シーン時刻付与部１７から出力される。

【0147】

図１１に戻って、一方、シーン時刻付与部１７は、ステップＳ１１０３において、画像物体処理部１１－２からシーンの時刻情報を入力していないと判定した場合（ステップＳ１１０３：Ｎ）、コンテンツ情報、（選択された）キーワード及び当該キーワードに紐付いた字幕データ（または、コンテンツ情報及び（選択された）キーワード）を知識データとしてＲＤＦ生成部１８に出力する（ステップＳ１１０６）。つまり、画像物体処理部１１－２は、要求と共に入力したキーワードが、画像データから生成したキーワードと一致しない場合に、要求に応じた結果としてシーンの時刻情報なしをシーン時刻付与部１７に出力する。この場合に、シーン時刻付与部１７は、画像物体処理部１１－２からシーンの時刻情報なしを入力することで、シーンの時刻情報を入力していないと判定する。

【0148】

このように、シーン時刻付与部１７により、スコアが最大である選択されたキーワードと関係性のある画像データのシーンの時刻情報、つまり、画像物体処理部１１－２の物体認識処理により認識された物体を含む画像データのうち効果的な画像データについて、物体が出現するシーンの時刻情報が取得され、当該キーワードに、シーンの時刻情報が紐付けられることとなる。

【0149】

このような処理は、キーワード選択部１４により選択されたフレーム毎のキーワードについて行われる。つまり、キーワードに紐付いたシーンの時刻情報がある場合は、シーンの時刻情報がシーン時刻付与部１７からＲＤＦ生成部１８に出力される。

【0150】

（ＲＤＦ生成部１８により生成されるＲＤＦデータ）
次に、図２に示したＲＤＦ生成部１８により生成されるＲＤＦデータについて説明する。図１３は、ＲＤＦデータの記述例を説明する図である。

【0151】

コンテンツ情報に含まれるコンテンツＩＤ「20210x・・・x」、コンテンツのＵＲＬ等のデータ、第１のキーワードとして「放物線」「ボール」「速度」、当該第１のキーワードに紐付いた画像データ及び第１のシーンの時刻情報、第２のキーワードとして「ライト」「光」等、当該第２のキーワードに紐付いた画像データ及び第２のシーンの時刻情報からなる知識データが、ＲＤＦ生成部１８に入力されたものとする。

【0152】

ＲＤＦ生成部１８により、前述の知識データがシーン毎に集計され、図１３に示すＲＤＦデータに変換され、ＤＢ登録部１９に登録される。図１３に示すように、このＲＤＦデータは、コンテンツ全体の記述部分ａ、第１のシーンに関する記述部分ｂ、及び第２のシーンに関する記述部分ｃから構成される。

【0153】

記述部分ａには、当該ＲＤＦデータの名称「x・・・x」（ａ１）、予め設定されたデータ名称「TVEpisode」（ａ２）、コンテンツＩＤ「20210x・・・x」（ａ３）、コンテンツのタイトル「波は何を伝えるのだろう」（ａ４）、話数「episodeNumber1」（ａ５）、科目「物理基礎」（ａ６）及びシーン名称「Part1」「Part2」（ａ７）が記述される。

【0154】

記述部分ｂには、シーン名称「Part1」の第１のシーンについて、予め設定されたデータ名称「TVEpisode」（ｂ１）、キーワード「放物線」「ボール」「速度」（ｂ２）、コンテンツのＵＲＬ（ｂ３）、第１のシーンの開始時刻（ｂ４）及び終了時刻（ｂ５）が記述される。

【0155】

記述部分ｃには、シーン名称「Part2」の第２のシーンにつき、記述部分ｂのように、データ名称、キーワード等が記述される。

【0156】

以上のように、本発明の実施例１の知識データ生成装置１Ａによれば、データ処理部１１は、放送番組コンテンツを構成する音声データ、画像データ及び字幕データを用いて、それぞれ音声データに対する音声認識処理、画像データに対する物体認識処理、画像データに対する文字認識処理及び字幕データに対する字幕解析処理にて、各処理種類に応じた１フレーム毎の１または複数のキーワードを求める。

【0157】

スコア算出部１３は、処理種類毎に、それぞれのキーワードをスコア化し、同一のキーワード毎に、各処理種類を統合した１フレームのスコアを求める。

【0158】

キーワード選択部１４は、全てのフレームのそれぞれについて、スコアが最大のキーワードを選択する。

【0159】

字幕付与部１５は、字幕処理部１１－４から、（選択された）キーワードに紐付いた字幕データを取得し、画像付与部１６は、画像物体処理部１１－２から、当該キーワードに紐付いた画像データを取得し、シーン時刻付与部１７は、画像物体処理部１１－２から、当該キーワードに紐付いた画像データのシーンの時刻情報を取得する。

【0160】

ＲＤＦ生成部１８は、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報からなる知識データをＲＤＦデータに変換し、ＲＤＦデータをＤＢ登録部１９に登録する。

【0161】

このように、１つの放送番組コンテンツに対し、コンテンツ情報及びキーワードに加え、当該コンテンツの字幕データ、画像データ及びシーンの時刻情報を取得することができる。また、これらのデータからなる知識データを用いて、所望のコンテンツを検索することで、様々なコンテンツの連携を実現することができ、ユーザに対し、精度の高いコンテンツを提示することができる。

【0162】

つまり、実施例１の知識データ生成装置１Ａによれば、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成することができる。

【0163】

また、ＤＢ登録部１９に登録される知識データは、ＲＤＦの形式である。ＲＤＦデータは、Ｗｅｂにて一般的に用いられているデータであって可読可能な形式であるため、知識データを用いて所望のコンテンツを検索する等のコンピュータ処理において、取り扱い易いという利点がある。

【0164】

前述のとおり、従来の特許文献１では、学習指導要領を元にコンテンツが提示され、従来の非特許文献１では、教科書に記載された学習順序を元にコンテンツが提示される。また、本件特許出願時に未公開の特願２０２１－１８４９９３号公報に記載された発明では、キーワードである文字データのみに基づいてコンテンツが提示される。このため、提示されるコンテンツの範囲が限定されてしまい、ユーザに対して、必ずしも効果的なコンテンツを提示できるとは限らないという問題があった。

【0165】

これに対し、実施例１の知識データ生成装置１Ａでは、様々な分野の外部データ２及び放送局データ３のコンテンツを用いて知識データが生成された場合、知識データには、コンテンツの意味合いの幅が広がった複数のキーワード、これに紐付いた字幕データ、画像データ及びシーンの時刻情報が含まれることとなる。そして、この知識データを用いて、ユーザによる所望のコンテンツの検索が行われることで、様々なコンテンツの連携を実現することができる。また、知識データは、コンテンツを構成するマルチモーダルなデータを用いて生成され、かつ様々な分野の外部データ２及び放送局データ３のコンテンツを用いて生成される。この知識データを用いることで、精度の高いコンテンツの提示を実現することができる。

【0166】

例えば、知識データに含まれるキーワード及び字幕データ等同士が比較されることで、ユーザが指定した文字データ等と同一のキーワード及び字幕データ等に対応する他の分野のコンテンツの提示が可能となる。このため、学習順序に依存することなく、コンテンツの提示が可能となる。

【0167】

また、知識データを用いて、ユーザが指定した文字データ等と類似するキーワード及び字幕データ等に対応するコンテンツが検索されることで、検索されたコンテンツのリストの提示が可能となる。ユーザは、そのリストを参照することで、自身の習熟度または興味に応じて、次に学習するコンテンツを自発的に選択することができる。

【0168】

〔実施例２／知識データ生成装置１Ｂ〕
次に、実施例２の知識データ生成装置１Ｂについて説明する。実施例２の知識データ生成装置１Ｂは、教育分野の学習用のコンテンツを用いて、実施例１の処理に加え、コンテンツＩＤから学習指導要領コードを検索し、学習指導要領コードから関連コンテンツを検索し、キーワードに紐付いた字幕データ、画像データ、シーンの時刻情報、学習指導要領コード及び関連コンテンツの識別情報等を知識データとし、知識データをＲＤＦデータに変換するものである。

【0169】

ここで、学習指導要領コードは、学習指導要領の総則及び各教科等の全内容に対し、学校種、教科及び学年等の一定のルールに基づいて、１６桁の数字を割り振ったものである。詳細については、以下の非特許文献を参照されたい。
［非特許文献］ “学習指導要領コードについて”、［online］、文部科学省、［令和４年８月３１日検索］、インターネット＜ＵＲＬ：https://www.mext.go.jp/content/20201016-mxt_syoto01-000010374_3.pdf＞

【0170】

図１４は、実施例２の知識データ生成装置１Ｂの構成例を示すブロック図であり、図１５は、実施例２の知識データ生成装置１Ｂの処理例を示すフローチャートである。

【0171】

知識データ生成装置１Ｂは、入力部１０、データ処理部１１、メモリ１２、スコア算出部１３、キーワード選択部１４、字幕付与部１５、画像付与部１６、シーン時刻付与部１７、ＲＤＦ生成部１８、ＤＢ登録部１９、コード検索部２０、関連コンテンツ検索部２１及びテーブル２２，２３を備えている。データ処理部１１は、音声処理部１１－１、画像物体処理部１１－２、画像文字処理部１１－３及び字幕処理部１１－４を備えている。

【0172】

図２に示した実施例１の知識データ生成装置１Ａとこの知識データ生成装置１Ｂとを比較すると、両知識データ生成装置１Ａ，１Ｂは、入力部１０、データ処理部１１、メモリ１２、スコア算出部１３、キーワード選択部１４、字幕付与部１５、画像付与部１６、シーン時刻付与部１７、ＲＤＦ生成部１８及びＤＢ登録部１９を備えている点で共通する。

【0173】

これに対し、知識データ生成装置１Ｂは、知識データ生成装置１Ａの構成に加え、さらに、コード検索部２０、関連コンテンツ検索部２１及びテーブル２２，２３を備えている点で、知識データ生成装置１Ａと相違する。図１４において、図２と共通する部分には図２と同一の符号を付し、その詳しい説明は省略する。

【0174】

図１５のステップＳ１５０１～Ｓ１５０７は、図３に示したステップＳ３０１～Ｓ３０７と同様であるため、ここでは説明を省略する。ここで、知識データ生成装置１Ｂは、教育分野の学習用のコンテンツを扱うものとする。つまり、図１４及び図１５を参照して、入力部１０は、ステップＳ１５０１において、例えば放送局データ３から、教育分野の学習用のコンテンツを識別するための情報等のコンテンツ情報、及び学習用のコンテンツのデータ（音声データ、画像データ及び字幕データ）を入力するものとする。

【0175】

シーン時刻付与部１７は、ステップＳ１５０７の処理において、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報をコード検索部２０に出力する。

【0176】

コード検索部２０は、シーン時刻付与部１７からコンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報を入力する。そして、コード検索部２０は、後述するテーブル２２を用いて、コンテンツ情報に含まれるコンテンツＩＤに対応する学習指導要領コードを検索する（ステップＳ１５０８）。尚、コード検索部２０は、キーワードを用いて、学習指導要領コードを検索するようにしてもよい。

【0177】

コード検索部２０は、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コードを関連コンテンツ検索部２１に出力する。

【0178】

関連コンテンツ検索部２１は、コード検索部２０から、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コードを入力する。そして、関連コンテンツ検索部２１は、後述するテーブル２３を用いて、学習指導要領コードに対応する関連コンテンツを検索し（ステップＳ１５０９）、関連コンテンツを識別するための情報（関連コンテンツＩＤ）等の関連コンテンツ情報を取得する。

【0179】

関連コンテンツ検索部２１は、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コード及び関連コンテンツ情報を知識データとし、知識データをＲＤＦ生成部１８に出力する。

【0180】

ＲＤＦ生成部１８は、関連コンテンツ検索部２１から、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コード及び関連コンテンツ情報からなる知識データを入力する。そして、ＲＤＦ生成部１８は、知識データをＲＤＦデータに変換することで、ＲＤＦデータを生成し（ステップＳ１５１０）、ＲＤＦデータをＤＢ登録部１９に登録する（ステップＳ１５１１）。これにより、ＤＢ登録部１９には、知識データがＲＤＦデータとして登録されることとなる。

【0181】

尚、ＲＤＦ生成部１８は、関連コンテンツ検索部２１から、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ及び画像データに加え、学習指導要領コード及び関連コンテンツ情報からなる知識データを入力する場合もあり、コンテンツ情報、（選択された）キーワード、及び当該キーワードに紐付いた字幕データに加え、学習指導要領コード及び関連コンテンツ情報からなる知識データを入力する場合もある。また、ＲＤＦ生成部１８は、コンテンツ情報、（選択された）キーワード、学習指導要領コード及び関連コンテンツ情報からなる知識データを入力する場合もある。

【0182】

（コード検索部２０）
次に、図１４に示したコード検索部２０の処理について詳細に説明する。図１６は、コード検索部２０の処理例を示すフローチャートであり、図１５に示したステップＳ１５０８の処理に対応している。

【0183】

コード検索部２０は、シーン時刻付与部１７からコンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報を入力する（ステップＳ１６０１）。

【0184】

コード検索部２０は、コンテンツ情報からコンテンツＩＤを抽出する（ステップＳ１６０２）。そして、コード検索部２０は、テーブル２２を用いて、コンテンツＩＤに対応する学習指導要領コードを検索することで、テーブル２２から学習指導要領コードを読み出す（ステップＳ１６０３）。

【0185】

図１７は、コード検索部２０が用いるテーブル２２のデータ構成例を示す図である。このテーブル２２には、コンテンツの識別情報であるコンテンツＩＤ及び当該コンテンツＩＤに対応する１６桁の学習指導要領コードを組として、複数の組のデータが格納されている。これらのデータは予め設定される。

【0186】

図１６に戻って、コード検索部２０は、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コードを関連コンテンツ検索部２１に出力する（ステップＳ１６０４）。

【0187】

（関連コンテンツ検索部２１）
次に、図１４に示した関連コンテンツ検索部２１の処理について詳細に説明する。図１８は、関連コンテンツ検索部２１の処理例を示すフローチャートであり、図１５に示したステップＳ１５０９の処理に対応している。

【0188】

関連コンテンツ検索部２１は、コード検索部２０からコンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コードを入力する（ステップＳ１８０１）。

【0189】

関連コンテンツ検索部２１は、テーブル２３を用いて、学習指導要領コードに対応する関連コンテンツＩＤを検索することで、テーブル２３から関連コンテンツＩＤを読み出す（ステップＳ１８０２）。

【0190】

図１９は、関連コンテンツ検索部２１が用いるテーブル２３のデータ構成例を示す図である。このテーブル２３には、１６桁の学習指導要領コード、当該学習指導要領コードに対応する１または複数の学習指導要領キーワード及び当該学習指導要領キーワード（または学習指導要領コード）に対応する１または複数の関連コンテンツＩＤを組として、複数の組のデータが格納されている。これらのデータは予め設定される。

【0191】

尚、テーブル２３には、学習指導要領コード、学習指導要領キーワード及び関連コンテンツＩＤが格納されているが、学習指導要領コード及び関連コンテンツＩＤが格納されるようにしてもよい。

【0192】

図１８に戻って、関連コンテンツ検索部２１は、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コード及び関連コンテンツＩＤをＲＤＦ生成部１８に出力する（ステップＳ１８０３）。

【0193】

尚、関連コンテンツ検索部２１は、ステップＳ１８０２において、テーブル２３を用いることなく、関連コンテンツＩＤを検索するようにしてもよい。具体的には、関連コンテンツ検索部２１は、学習指導要領コードから学習指導要領を特定し、当該学習指導要領から学習指導要領キーワードを求める。そして、関連コンテンツ検索部２１は、インターネット等のデータベースを用いて、学習指導要領キーワードに対応する関連コンテンツを検索することで、学習指導要領キーワード（及び学習指導要領コード）に対応する関連コンテンツＩＤを取得する。

【0194】

以上のように、本発明の実施例２の知識データ生成装置１Ｂによれば、入力部１０、データ処理部１１、メモリ１２、スコア算出部１３、キーワード選択部１４、字幕付与部１５、画像付与部１６及びシーン時刻付与部１７は、実施例１と同様の処理を行う。

【0195】

コード検索部２０は、テーブル２２を用いて、コンテンツ情報に含まれるコンテンツＩＤに対応する学習指導要領コードを検索し、関連コンテンツ検索部２１は、テーブル２３を用いて、学習指導要領コードに対応する関連コンテンツＩＤを検索する。

【0196】

ＲＤＦ生成部１８は、コンテンツ情報、（選択された）キーワード、並びに当該キーワードに紐付いた字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コード及び関連コンテンツＩＤからなる知識データをＲＤＦデータに変換し、ＲＤＦデータをＤＢ登録部１９に登録する。

【0197】

このように、教育分野の学習用のコンテンツに対し、コンテンツ情報及びキーワード、並びに当該コンテンツの字幕データ、画像データ及びシーンの時刻情報に加え、学習指導要領コード及び関連コンテンツＩＤを取得することができる。また、これらのデータからなる知識データを用いて、所望のコンテンツを検索することで、様々なコンテンツの連携を実現することができ、ユーザに対し、精度の高いコンテンツを提示することができる。

【0198】

つまり、実施例２の知識データ生成装置１Ｂによれば、教育分野の学習用のコンテンツについて、様々なコンテンツの連携を実現し、精度の高いコンテンツを提示するための知識データを生成することができる。

【0199】

以上、実施例１，２を挙げて本発明を説明したが、本発明は前記実施例１，２に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。

【0200】

例えば、実施例１，２の知識データ生成装置１Ａ，１Ｂに備えたＲＤＦ生成部１８は、知識データをＲＤＦデータに変換するようにした。本発明は、構造化データをＲＤＦデータに限定するものではない。ＲＤＦ生成部１８に代わる構造化データ生成部は、知識データをＲＤＦデータ以外の構造化データに変換するようにしてもよい。

【0201】

また、実施例２の知識データ生成装置１Ｂでは、教育分野に適用した例を示したが、教育以外の分野についても適用がある。この場合、学習指導要領コードの代わりに、適用する分野に使用されているコードが用いられる。

【0202】

尚、本発明の実施例１，２による知識データ生成装置１Ａ，１Ｂのハードウェア構成としては、通常のコンピュータを使用することができる。知識データ生成装置１Ａ，１Ｂは、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。

【0203】

知識データ生成装置１Ａに備えた入力部１０、データ処理部１１（音声処理部１１－１、画像物体処理部１１－２、画像文字処理部１１－３及び字幕処理部１１－４）、メモリ１２、スコア算出部１３、キーワード選択部１４、字幕付与部１５、画像付与部１６、シーン時刻付与部１７、ＲＤＦ生成部１８及びＤＢ登録部１９の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

【0204】

また、知識データ生成装置１Ｂに備えた入力部１０、データ処理部１１、メモリ１２、スコア算出部１３、キーワード選択部１４、字幕付与部１５、画像付与部１６、シーン時刻付与部１７、ＲＤＦ生成部１８、ＤＢ登録部１９、コード検索部２０、関連コンテンツ検索部２１及びテーブル２２，２３の各機能も、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

【0205】

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

【符号の説明】

【0206】

１，１Ａ，１Ｂ知識データ生成装置
２，２－１，２－２，２－３外部データ
３，３－１，３－２放送局データ
４－１，４－２，４－３ユーザ端末
１０入力部
１１データ処理部
１１－１音声処理部
１１－２画像物体処理部
１１－３画像文字処理部
１１－４字幕処理部
１２メモリ
１３スコア算出部
１４キーワード選択部
１５字幕付与部
１６画像付与部
１７シーン時刻付与部
１８ＲＤＦ生成部（構造化データ生成部）
１９ＤＢ登録部
２０コード検索部
２１関連コンテンツ検索部
２２，２３テーブル

【図1】