(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024162885
(43)【公開日】2024-11-21
(54)【発明の名称】関連コンテンツ検索装置およびプログラム
(51)【国際特許分類】
G06F 16/38 20190101AFI20241114BHJP
【FI】
G06F16/38
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023078852
(22)【出願日】2023-05-11
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【弁理士】
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【弁理士】
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】藤井 翔子
(72)【発明者】
【氏名】阿部 晋矢
(72)【発明者】
【氏名】松村 欣司
(72)【発明者】
【氏名】藤沢 寛
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FB03
5B175HB01
(57)【要約】
【課題】ナレッジ情報の存在を前提として、関連コンテンツを精度よく検索することのできる関連コンテンツ検索装置を提供する。
【解決手段】コンテンツ連携処理部は、コンテンツデータが持つキーワードリストに含まれるキーワードが、ナレッジ情報が持つ所定のテーマコードに関連付けられた「題材となる語」と一致する場合に、当該コンテンツデータが持つコンテンツ識別情報を、当該テーマコードに関連付けられた当該「題材となる語」に結び付ける。関連コンテンツ検索部は、「元のコンテンツ識別情報」が取得されると、ナレッジ情報を検索することによって、元のコンテンツと共通の「題材となる語」をキーワードリスト内に有する、別の関連コンテンツのコンテンツ識別情報を、または、元のコンテンツと共通の「要素となる語」をキーワードリスト内に有する、別の関連コンテンツのコンテンツ識別情報を、取得する。
【選択図】
図15
【特許請求の範囲】
【請求項1】
テーマを識別するためのテーマコードと、当該テーマコードに関係するコンテンツに関する語である「要素となる語」と、当該テーマコードに関係するコンテンツに関する語である「題材となる語」と、を関連付けることによって成るナレッジ情報、を取得するナレッジ情報取得部と、
コンテンツを識別するためのコンテンツ識別情報と、前記コンテンツ識別情報に関連付けられる1個以上のキーワードを含むキーワードリストと、を含むコンテンツデータを取得するコンテンツデータ取得部と、
前記コンテンツデータが持つ前記キーワードリストに含まれる前記キーワードが、前記ナレッジ情報が持つ所定のテーマコードに関連付けられた前記「題材となる語」と一致する場合に、当該コンテンツデータが持つ前記コンテンツ識別情報を、当該テーマコードに関連付けられた当該「題材となる語」に結び付けるコンテンツ連携処理部と、
関連コンテンツの検索の元となる「元のコンテンツ識別情報」が取得されると、前記ナレッジ情報を検索することによって、
(A)当該「元のコンテンツ識別情報」に関連付けられる前記キーワードリスト内の前記キーワードであって且つ前記ナレッジ情報内において特定のテーマコードに関連付けられた前記「題材となる語」と、共通の前記「題材となる語」を前記キーワードリスト内に有する、当該「元のコンテンツ識別情報」とは別の関連コンテンツのコンテンツ識別情報を、関連コンテンツ識別情報として取得し、または、
(B)当該「元のコンテンツ識別情報」に関連付けられる前記キーワードリスト内の前記キーワードであって且つ前記ナレッジ情報内において特定のテーマコードに関連付けられた前記「要素となる語」と、共通の前記「要素となる語」を前記キーワードリスト内に有する、当該「元のコンテンツ識別情報」とは別の関連コンテンツのコンテンツ識別情報を、関連コンテンツ識別情報として取得し、
取得した前記関連コンテンツ識別情報を検索結果として出力する関連コンテンツ検索部と、
を備える関連コンテンツ検索装置。
【請求項2】
前記ナレッジ情報は、特定のテーマコードに関して、1つの前記「要素となる語」が1つの前記「題材となる語」との間の直接の関係を持つか否かを表す情報を含み、
前記コンテンツ連携処理部は、1つのコンテンツ識別情報を1つの「題材となる語」に結び付ける際に、
(1)当該コンテンツ識別情報に関連付けられたキーワードリストが、当該「題材となる語」と前記直接の関係を持つ前記「要素となる語」をキーワードとして含む場合には、当該コンテンツ識別情報を、「題材を例に要素を理解できるコンテンツ」のコンテンツ識別情報として結び付けを行い、
(2)当該キーワードリストが、当該「題材となる語」と前記直接の関係を持つ前記「要素となる語」をキーワードとして含まない場合には、当該コンテンツ識別情報を「題材となるコンテンツ」のコンテンツ識別情報として結び付けを行う、
請求項1に記載の関連コンテンツ検索装置。
【請求項3】
前記関連コンテンツ検索部は、
(B)当該「元のコンテンツ識別情報」に関連付けられる前記キーワードリスト内の前記キーワードであって且つ前記ナレッジ情報内において特定のテーマコードに関連付けられた前記「要素となる語」と、共通の前記「要素となる語」を前記キーワードリスト内に有する、当該「元のコンテンツ識別情報」とは別の関連コンテンツのコンテンツ識別情報を、関連コンテンツ識別情報として取得する処理を、
当該「元のコンテンツ識別情報」が「題材を例に要素を理解できるコンテンツ」のコンテンツ識別情報であって、且つ当該関連コンテンツ識別情報が「題材を例に要素を理解できるコンテンツ」のコンテンツ識別情報である場合に限定して行う、
請求項2に記載の関連コンテンツ検索装置。
【請求項4】
前記関連コンテンツ検索部が出力した前記関連コンテンツ識別情報に基づいて、当該関連コンテンツ識別情報によって識別される関連コンテンツ、または当該関連コンテンツに関する情報を、提示する提示部、
をさらに備える請求項1に記載の関連コンテンツ検索装置。
【請求項5】
テーマを識別するためのテーマコードと、当該テーマコードに関係するコンテンツに関する語である「要素となる語」と、当該テーマコードに関係するコンテンツに関する語である「題材となる語」と、を関連付けることによって成るナレッジ情報、を取得するナレッジ情報取得部と、
コンテンツを識別するためのコンテンツ識別情報と、前記コンテンツ識別情報に関連付けられる1個以上のキーワードを含むキーワードリストと、を含むコンテンツデータを取得するコンテンツデータ取得部と、
前記コンテンツデータが持つ前記キーワードリストに含まれる前記キーワードが、前記ナレッジ情報が持つ所定のテーマコードに関連付けられた前記「題材となる語」と一致する場合に、当該コンテンツデータが持つ前記コンテンツ識別情報を、当該テーマコードに関連付けられた当該「題材となる語」に結び付けるコンテンツ連携処理部と、
関連コンテンツの検索の元となる「元のコンテンツ識別情報」が取得されると、前記ナレッジ情報を検索することによって、
(A)当該「元のコンテンツ識別情報」に関連付けられる前記キーワードリスト内の前記キーワードであって且つ前記ナレッジ情報内において特定のテーマコードに関連付けられた前記「題材となる語」と、共通の前記「題材となる語」を前記キーワードリスト内に有する、当該「元のコンテンツ識別情報」とは別の関連コンテンツのコンテンツ識別情報を、関連コンテンツ識別情報として取得し、または、
(B)当該「元のコンテンツ識別情報」に関連付けられる前記キーワードリスト内の前記キーワードであって且つ前記ナレッジ情報内において特定のテーマコードに関連付けられた前記「要素となる語」と、共通の前記「要素となる語」を前記キーワードリスト内に有する、当該「元のコンテンツ識別情報」とは別の関連コンテンツのコンテンツ識別情報を、関連コンテンツ識別情報として取得し、
取得した前記関連コンテンツ識別情報を検索結果として出力する関連コンテンツ検索部と、
を備える関連コンテンツ検索装置、としてコンピューターを機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、関連コンテンツ検索装置およびプログラムに関する。
【背景技術】
【0002】
既に選択されたコンテンツ等に基づいてそのコンテンツに関連する関連コンテンツを検索する技術が利用されている。関連コンテンツを検索する技術は、ユーザーに対するレコメンデーション等に利用される重要な技術である。
【0003】
例えば教育分野においては、コンテンツのネット配信を活用した学習サービスが重要性を増している。教育分野においては、さらに、画一的な学習順序に則るだけではなく、学習者の理解や進捗に合わせてコンテンツを提供するといった学習サービスの必要性も、謳われている。そこで、ユーザー(学習者)や指導者に対して、コンテンツ(学習コンテンツ)を自動的に提示する方法が研究されている。
【0004】
特許文献1には、学習指導要領をもとに学習領域を定め、その領域の中から学年、教科、あるいは教科書の単元を基に、利用者に教材をレコメンドする技術が開示されている。
【0005】
非特許文献1には、学習コンテンツとその他の(学習コンテンツ以外の)映像コンテンツの関係性を、セマンティックWebを支えるRDF(Resource Description Framework)のデータフォーマットにより記述して、それら両者間の関係性を明示して提示する手法が開示されている。
【先行技術文献】
【特許文献】
【0006】
【非特許文献】
【0007】
【非特許文献1】浦川真,藤沢寛,「構造化データにより教育向けアプリケーションに連携した映像コンテンツの利用検証」,映像情報メディア学会技術報告, Vol. 42,No. 11,BCT2018-38,pp. 1-4
【発明の概要】
【発明が解決しようとする課題】
【0008】
例えば教育分野においては、本来は教育用に制作されたわけではないコンテンツを、教育の目的に使用することの有効性が認識されている。このように教育用に制作されたわけではないコンテンツを教育の目的に使用するためには、コンテンツ間の関連性に基づいて適切なコンテンツの選択が行われることが望まれる。
【0009】
また、日本国政府が定める学習指導要領においても、それぞれの学習項目について日常や身近な話題と関連付けて学ぶことの必要性が謳われている。しかしながら、学習指導要領そのものには日常や身近な話題の具体例は記されていない。
【0010】
上記の「日常や身近な話題の具体例」を「題材」と呼ぶことにする。題材は、体系化された情報が持つ「要素」(教育・学習に関しては、学習要素)を理解するために役立つ情報としてコンテンツが含むものである。つまり、題材は、要素を理解するための情報として有用である。
【0011】
特許文献1や非特許文献1に記載されている技術では、あるコンテンツの関連コンテンツとして、教育用に制作されてはいないが学習項目(要素を含む)に関する日常や身近な話題となるコンテンツを結びつけて提示することが困難ないしは不可能である。
【0012】
以上において教育を例として説明したように、本発明の課題は、特定目的で制作されたコンテンツに限らず、適切な「題材」を含む関連コンテンツを、検索可能とすることである。また、上記のような関連コンテンツを検索するためには、対象分野に関するナレッジ(知識)が必要である。つまり、「要素」と「題材」の関係を表すコンピューター処理可能な形式的なデータ(ナレッジ情報と呼ぶ)を必要とする。
【0013】
本発明は、上記の課題認識に基づいて行なわれたものであり、ナレッジ情報の存在を前提として、関連コンテンツを精度よく検索することのできる関連コンテンツ検索装置およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0014】
[1]上記の課題を解決するため、本発明の一態様による関連コンテンツ検索装置は、テーマを識別するためのテーマコードと、当該テーマコードに関係するコンテンツに関する語である「要素となる語」と、当該テーマコードに関係するコンテンツに関する語である「題材となる語」と、を関連付けることによって成るナレッジ情報、を取得するナレッジ情報取得部と、コンテンツを識別するためのコンテンツ識別情報と、前記コンテンツ識別情報に関連付けられる1個以上のキーワードを含むキーワードリストと、を含むコンテンツデータを取得するコンテンツデータ取得部と、前記コンテンツデータが持つ前記キーワードリストに含まれる前記キーワードが、前記ナレッジ情報が持つ所定のテーマコードに関連付けられた前記「題材となる語」と一致する場合に、当該コンテンツデータが持つ前記コンテンツ識別情報を、当該テーマコードに関連付けられた当該「題材となる語」に結び付けるコンテンツ連携処理部と、関連コンテンツの検索の元となる「元のコンテンツ識別情報」が取得されると、前記ナレッジ情報を検索することによって、(A)当該「元のコンテンツ識別情報」に関連付けられる前記キーワードリスト内の前記キーワードであって且つ前記ナレッジ情報内において特定のテーマコードに関連付けられた前記「題材となる語」と、共通の前記「題材となる語」を前記キーワードリスト内に有する、当該「元のコンテンツ識別情報」とは別の関連コンテンツのコンテンツ識別情報を、関連コンテンツ識別情報として取得し、または、(B)当該「元のコンテンツ識別情報」に関連付けられる前記キーワードリスト内の前記キーワードであって且つ前記ナレッジ情報内において特定のテーマコードに関連付けられた前記「要素となる語」と、共通の前記「要素となる語」を前記キーワードリスト内に有する、当該「元のコンテンツ識別情報」とは別の関連コンテンツのコンテンツ識別情報を、関連コンテンツ識別情報として取得し、取得した前記関連コンテンツ識別情報を検索結果として出力する関連コンテンツ検索部と、を備える。
【0015】
[2]また、本発明の一態様は、上記[1]の関連コンテンツ検索装置において、前記ナレッジ情報は、特定のテーマコードに関して、1つの前記「要素となる語」が1つの前記「題材となる語」との間の直接の関係を持つか否かを表す情報を含み、前記コンテンツ連携処理部は、1つのコンテンツ識別情報を1つの「題材となる語」に結び付ける際に、(1)当該コンテンツ識別情報に関連付けられたキーワードリストが、当該「題材となる語」と前記直接の関係を持つ前記「要素となる語」をキーワードとして含む場合には、当該コンテンツ識別情報を、「題材を例に要素を理解できるコンテンツ」のコンテンツ識別情報として結び付けを行い、(2)当該キーワードリストが、当該「題材となる語」と前記直接の関係を持つ前記「要素となる語」をキーワードとして含まない場合には、当該コンテンツ識別情報を「題材となるコンテンツ」のコンテンツ識別情報として結び付けを行う、というものである。
【0016】
[3]また、本発明の一態様は、上記[2]の関連コンテンツ検索装置において、前記関連コンテンツ検索部は、(B)当該「元のコンテンツ識別情報」に関連付けられる前記キーワードリスト内の前記キーワードであって且つ前記ナレッジ情報内において特定のテーマコードに関連付けられた前記「要素となる語」と、共通の前記「要素となる語」を前記キーワードリスト内に有する、当該「元のコンテンツ識別情報」とは別の関連コンテンツのコンテンツ識別情報を、関連コンテンツ識別情報として取得する処理を、当該「元のコンテンツ識別情報」が「題材を例に要素を理解できるコンテンツ」のコンテンツ識別情報であって、且つ当該関連コンテンツ識別情報が「題材を例に要素を理解できるコンテンツ」のコンテンツ識別情報である場合に限定して行う、というものである。
【0017】
[4]また、本発明の一態様は、上記[1]から[3]までのいずれかの関連コンテンツ検索装置において、前記関連コンテンツ検索部が出力した前記関連コンテンツ識別情報に基づいて、当該関連コンテンツ識別情報によって識別される関連コンテンツ、または当該関連コンテンツに関する情報を、提示する提示部、をさらに備える。
【0018】
[5]また、本発明の一態様は、テーマを識別するためのテーマコードと、当該テーマコードに関係するコンテンツに関する語である「要素となる語」と、当該テーマコードに関係するコンテンツに関する語である「題材となる語」と、を関連付けることによって成るナレッジ情報、を取得するナレッジ情報取得部と、コンテンツを識別するためのコンテンツ識別情報と、前記コンテンツ識別情報に関連付けられる1個以上のキーワードを含むキーワードリストと、を含むコンテンツデータを取得するコンテンツデータ取得部と、前記コンテンツデータが持つ前記キーワードリストに含まれる前記キーワードが、前記ナレッジ情報が持つ所定のテーマコードに関連付けられた前記「題材となる語」と一致する場合に、当該コンテンツデータが持つ前記コンテンツ識別情報を、当該テーマコードに関連付けられた当該「題材となる語」に結び付けるコンテンツ連携処理部と、関連コンテンツの検索の元となる「元のコンテンツ識別情報」が取得されると、前記ナレッジ情報を検索することによって、(A)当該「元のコンテンツ識別情報」に関連付けられる前記キーワードリスト内の前記キーワードであって且つ前記ナレッジ情報内において特定のテーマコードに関連付けられた前記「題材となる語」と、共通の前記「題材となる語」を前記キーワードリスト内に有する、当該「元のコンテンツ識別情報」とは別の関連コンテンツのコンテンツ識別情報を、関連コンテンツ識別情報として取得し、または、(B)当該「元のコンテンツ識別情報」に関連付けられる前記キーワードリスト内の前記キーワードであって且つ前記ナレッジ情報内において特定のテーマコードに関連付けられた前記「要素となる語」と、共通の前記「要素となる語」を前記キーワードリスト内に有する、当該「元のコンテンツ識別情報」とは別の関連コンテンツのコンテンツ識別情報を、関連コンテンツ識別情報として取得し、取得した前記関連コンテンツ識別情報を検索結果として出力する関連コンテンツ検索部と、を備える関連コンテンツ検索装置、としてコンピューターを機能させるプログラムである。
【0019】
[参考態様1]また、一つの参考態様によるナレッジ情報生成装置は、テーマを識別するためのテーマコードと、前記テーマコードに関連付けられるテーマテキスト情報と、の対を含むテーマデータを取得するテーマデータ取得部と、コンテンツを識別するためのコンテンツ識別情報と、前記コンテンツ識別情報に関連付けられるコンテンツテキスト情報と、の対を含むコンテンツデータを取得するコンテンツデータ取得部と、前記コンテンツテキスト情報から抽出した語の中から前記テーマテキスト情報に含まれる語であるか否かに基づいて「要素となる語」を決定するとともに、前記コンテンツテキスト情報から抽出した語のそれぞれについて重要度に関するスコアを求めて、当該スコアに基づいて前記コンテンツテキスト情報から抽出した語の中から「題材となる語」を決定する、要素および題材抽出部と、前記テーマコードと、当該テーマコードに関して前記コンテンツテキスト情報から抽出された前記「要素となる語」および前記「題材となる語」と、を関連付けることによって成るナレッジ情報を生成する構造化処理部と、を備える。
【0020】
[参考態様2]また、一つの参考態様は、上記[参考態様1]のナレッジ情報生成装置において、前記要素および題材抽出部は、前記コンテンツテキスト情報から抽出した語のうちの前記重要度のスコアが上位所定数の語を、前記「題材となる語」として決定する、というものである。
【0021】
[参考態様3]また、一つの参考態様は、上記[参考態様2]のナレッジ情報生成装置において、前記要素および題材抽出部は、ポジションランク(PositionRank)の方法またはTF-IDF(語の出現頻度およびドキュメントの逆出現頻度)の方法を用いることによって、前記コンテンツテキスト情報から抽出した語のそれぞれの重要度に関するスコアを求める、というものである。
【0022】
[参考態様4]また、一つの参考態様は、上記[参考態様2]または[参考態様3]のナレッジ情報生成装置において、前記要素および題材抽出部は、前記コンテンツテキスト情報から抽出した語のうち、前記重要度のスコアが上位所定数の語であって且つ前記「要素となる語」として決定された語については、前記「題材となる語」から除外するよう決定する、というものである。
【0023】
[参考態様5]また、一つの参考態様は、上記[参考態様1]から[参考態様4]までのいずれかのナレッジ情報生成装置において、前記構造化処理部は、前記テーマコードに対応するノードと、前記「要素となる語」に対応するノードと、前記「題材となる語」に対応するノードとを有し、前記テーマコードに対応するノードと、当該テーマコードに対応するノードに関連する前記「要素となる語」に対応するノードと、の間に設けた第1階層リンクと、前記「要素となる語」に対応するノードと、当該「要素となる語」に対応するノードに関連する前記「題材となる語」に対応するノードと、の間に設けた第2階層リンクと、を持つグラフ構造のデータとして、前記ナレッジ情報を生成する、というものである。
【0024】
[参考態様6]また、一つの参考態様は、テーマを識別するためのテーマコードと、前記テーマコードに関連付けられるテーマテキスト情報と、の対を含むテーマデータを取得するテーマデータ取得部と、コンテンツを識別するためのコンテンツ識別情報と、前記コンテンツ識別情報に関連付けられるコンテンツテキスト情報と、の対を含むコンテンツデータを取得するコンテンツデータ取得部と、前記コンテンツテキスト情報から抽出した語の中から前記テーマテキスト情報に含まれる語であるか否かに基づいて「要素となる語」を決定するとともに、前記コンテンツテキスト情報から抽出した語のそれぞれについて重要度に関するスコアを求めて、当該スコアに基づいて前記コンテンツテキスト情報から抽出した語の中から「題材となる語」を決定する、要素および題材抽出部と、前記テーマコードと、当該テーマコードに関して前記コンテンツテキスト情報から抽出された前記「要素となる語」および前記「題材となる語」を関連付けることによって成るナレッジ情報を生成する構造化処理部と、を備えるナレッジ情報生成装置、としてプログラムを機能させるためのプログラムである。
【発明の効果】
【0025】
本発明によれば、ナレッジ情報を用いることによって従来技術では検索できなかった種類の関連コンテンツの検索を行うことができる。
【図面の簡単な説明】
【0026】
【
図1】本発明の実施形態によるナレッジ利用システムの概略構成例を示すブロック図である。
【
図2】同実施形態において利用する情報の構成について説明するための実体関係図(ER図)である。
【
図3】同実施形態によるナレッジ情報生成装置の概略機能構成を示すブロック図である。
【
図4】同実施形態において処理対象とするコンテンツデータ(学習コンテンツデータ)の構成の例を示す概略図である。
【
図5】同実施形態において処理対象とするテーマデータ(学習指導要領データ)の構成の例を示す概略図である。
【
図6】同実施形態においてコンテンツデータ(学習コンテンツデータ)のテキストから抽出された名詞を、スコアの降順に並べ替えした結果の例を示す概略図である。
【
図7】同実施形態のナレッジ情報生成装置において、構造化処理部が、要素および題材抽出部から渡される情報についての処理を行った結果として得られるナレッジグラフの例を示す概略図である。
【
図8】同実施形態におけるコンテンツ(学習コンテンツ)についての情報を持つコンテンツデータ(第1のコンテンツデータ)の例を示す概略図である。
【
図9】同実施形態におけるコンテンツ(学習コンテンツ)についての情報を持つコンテンツデータ(第2のコンテンツデータ)の例を示す概略図である。
【
図10】同実施形態において処理対象とするテーマデータ(学習指導要領データ)の構成の例を示す概略図である。
【
図11】同実施形態において、
図8に示したコンテンツデータ(学習コンテンツデータ)が持つテキストから抽出された名詞を、重要度のスコアの降順に(重要な順に)並べ替えた結果のリストを表す概略図である。
【
図12】同実施形態において、
図9に示したコンテンツデータ(学習コンテンツデータ)が持つテキストから抽出された名詞を、重要度のスコアの降順に(重要な順に)並べ替えた結果のリストを表す概略図である。
【
図13】同実施形態において、2つのコンテンツデータ(
図8,
図9)が持つ情報を統合して生成された1つのナレッジグラフ(ナレッジ情報)の例を示す概略図である。
【
図14】同実施形態によるナレッジ情報生成装置がナレッジグラフ(ナレッジ情報)を生成する処理の手順を示すフォローチャートである。
【
図15】同実施形態による関連コンテンツ検索装置の概略機能構成を示すブロック図である。
【
図16】同実施形態による関連コンテンツ検索装置の、コンテンツデータ取得部が取得してコンテンツ連携処理部に渡すコンテンツデータの構成の例を示す概略図である。
【
図17】同実施形態による関連コンテンツ検索装置が処理対象とするテーマコードについてのテーマデータ(学習指導要領データ)の一例を示す概略図である。
【
図18】同実施形態において、特定のテーマコード(学習指導要領コード)に関してナレッジ情報生成装置が生成したナレッジグラフの例を示す概略図である。
【
図19】同実施形態による関連コンテンツ検索装置が、コンテンツをナレッジグラフに結び付ける方法を示すデシジョンテーブルである。
【
図20】同実施形態による関連コンテンツ検索装置のコンテンツ連携処理部が、特定のテーマコード(学習指導要領コード)に対応するナレッジグラフにコンテンツを結び付けた例を示す概略図である。
【
図21】同実施形態による関連コンテンツ検索装置の関連コンテンツ検索部による検索の第1のパターンを示す概略図である。
【
図22】同実施形態による関連コンテンツ検索装置の関連コンテンツ検索部による検索の第2のパターンを示す概略図である。
【
図23】同実施形態による関連コンテンツ検索装置のコンテンツ連携処理部が、ナレッジグラフにコンテンツを連携させる処理の手順を示すフローチャートである。
【
図24】同実施形態による関連コンテンツ検索装置の全体的な処理の手順を示すフローチャートである。
【
図25】同実施形態においてナレッジ利用システムの要素であるナレッジ情報生成装置や関連コンテンツ検索装置の内部構成の一例を示すブロック図である。
【発明を実施するための形態】
【0027】
次に、本発明の実施形態について、図面を参照しながら説明する。本実施形態は、体系化された情報の存在を前提として、その情報から抽出した知識(ナレッジ)を知識情報(ナレッジ情報)として形式化する。また、本実施形態は、上記の形式化された知識情報に個々のコンテンツを関連付ける。さらに、本実施形態は、多数のコンテンツが関連付けられた(連携した、あるいは結び付けられた)知識情報を検索することによって、与えられた特定のコンテンツに関連する関連コンテンツを検索する。
【0028】
本実施形態では、上記の体系化された情報の一例として、学習指導要領を用いる。学習指導要領は、政府機関によって定められる国の標準的な教育カリキュラム(教育課程)の基準である。現代の学習指導要領では、その内容あるいは単元等といったテーマごとにコードが付与されている。このコードを学習指導要領コードという。このように学習指導要領コードはテーマごとに付与されるものであり、学習指導要領コードをより一般化した概念は「テーマコード」である。つまり、学習指導要領は、テーマコード(学習指導要領コード)ごとにテキストの情報を含むように体系化された情報である。本実施形態は、学習指導要領から知識を抽出することによって、形式化されたナレッジ情報として生成する。ナレッジ情報は、例えば、グラフ構造(ノードとリンクの集合として定義可能な構造)の情報として表わされ得る。これを、ナレッジグラフと呼ぶ。ただし、ナレッジ情報の表現方法は、グラフ構造(ナレッジグラフ)に限定されるものではない。
【0029】
学習指導要領LODは、例えば、下記のURLで参照可能である。
https://jp-cos.github.io/LowerSecondary/2017/理科
【0030】
本実施形態において、ある概念は語等によって表され得る。また、語等はある概念を表す。このように概念に対応付けられる語等は、代表的には名詞あるいは名詞句である。ただし、概念に対応付けられる語は、他の品詞の語あるいは句であってもよい。
【0031】
本実施形態において「要素となる語」(語は、句を含む。典型的には名詞や名詞句であるが、それら以外の品詞の表現であってもよい)は、テーマを構成する主要な概念に対応する自然言語の表現である。また、「題材となる語」(語については、上と同様)は、テーマにおける上記の「要素」を理解するために役立つ情報としてコンテンツが持つものである。テーマに関する記述において直接、「題材となる語」が出現する必要はない。本実施形態においては、装置がナレッジ情報を生成する過程で、「要素となる語」や「題材となる語」を、テキストから自動的に抽出する。つまり、「要素となる語」や「題材となる語」は、テーマの情報やコンテンツの情報から、所定の処理手順によって抽出可能なものである。典型的には、前記の処理手順を実現するプログラムをコンピューターが実行することにより、「要素となる語」や「題材となる語」は抽出される。つまり、所定のデータがあらかじめ存在することを前提として、「要素となる語」や「題材となる語」は、自然法則を利用して抽出され得る。
【0032】
本実施形態の手法は、学習分野以外(学習指導要領以外の情報)にも適用可能である。学習指導要領以外の情報の場合にも、本実施形態は、体系化された情報を基に知識を抽出してナレッジ情報として、形式的なデータで表現する。また、本実施形態は、ナレッジ情報とコンテンツの情報とを連携させることにより、ナレッジ情報を利用して、特定のコンテンツに関連する関連コンテンツを検索可能とする。学習指導要領以外の適用先の具体例については、後で「変形例」として説明する。
【0033】
本実施形態において使用する用語として、IDは、「identifier」(識別情報、識別子)の略である。また、URLは、「Uniform Resource Locator」(統一資源位置指定子)の略である。
【0034】
図1は、本実施形態によるナレッジ利用システムの概略構成の例を示すブロック図である。図示するように、ナレッジ利用システム1は、ナレッジ情報生成装置20と、関連コンテンツ検索装置30とを含むように構成される。これらのナレッジ情報生成装置20および関連コンテンツ検索装置30は、例えば、コンピューターと、プログラムとで実現することが可能である。また、ナレッジ情報生成装置20および関連コンテンツ検索装置30のそれぞれは、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。
【0035】
ナレッジ情報生成装置20は、所定の方法で体系立てられた文書のデータを基に、知識を抽出し、形式的なデータとして知識を表現した情報であるナレッジ情報を生成する。文書の一例は、学習指導要領である。学習指導要領では、各々の内容(単元等)に識別可能なコード(テーマコードあるいは学習指導要領コードと呼ばれる)が付与される。また、学習指導要領は、これらのコードごとの内容を表すテキスト(文)による記述を含む。本実施形態において、ナレッジ情報生成装置20が生成するナレッジ情報はナレッジグラフとする。ナレッジ情報生成装置20は、生成したナレッジ情報(ナレッジグラフ)を、関連コンテンツ検索装置30に渡す。なお、ナレッジ情報生成装置20のより詳細な構成および処理例等については、
図3以後において詳細に説明する。
【0036】
関連コンテンツ検索装置30は、ナレッジ情報生成装置20が生成したナレッジ情報を受け取り、このナレッジ情報を用いて、ある特定のコンテンツに関連する関連コンテンツの検索を行う。具体的な処理方法の一例として、関連コンテンツ検索装置30は、多数のコンテンツの情報(コンテンツの属性情報。コンテンツデータと呼ばれる。)を予めナレッジ情報と連携させておく。本実施形態においては、ナレッジ情報がグラフ構造を持つナレッジグラフであるので、例えば、関連コンテンツ検索装置30は、個々のコンテンツをそのグラフ(ナレッジグラフ)内のノードに結び付けておく。そして、関連コンテンツ検索装置30は、コンテンツと連携したナレッジ情報を検索することによって、ある特定のコンテンツに関連する関連コンテンツの検索を行う。関連コンテンツ検索装置30は、検索結果である関連コンテンツについての情報、あるいは関連コンテンツそのもの(動画コンテンツ等)を、ユーザーに提示することができる。なお、関連コンテンツ検索装置30のより詳細な構成および処理例等については、
図15以後において詳細に説明する。
【0037】
図2は、本実施形態において利用する情報の構成について説明するための実体関係図(ER図、Entity Relationship Diagram)である。同図は、テーマおよびコンテンツという2つの実体(entity)を含む。なお、同図は、これら2つの実体のみに着目して描かれているものであり、これら2つの実体のそれぞれが不図示の他の実体と関係を持っていてもよい。
【0038】
テーマは、ドキュメント(例えば、学習指導要領)に含まれる個々の項目に対応する。
個々のテーマは、テーマコードによって識別される。ドキュメントが学習指導要領である場合には、個々のテーマ(単元等の学習項目)は、学習指導要領コードによって識別される。つまり、テーマコードの具体例の一つが、学習指導要領コードである。つまり、テーマを識別するための主キーは、テーマコード(学習指導要領コード)である。テーマの属性としては、テーマコード(学習指導要領コード)や、テーマ項目テキスト等を含む。テーマ項目テキストは、そのテーマについて記述する概要文等のテキストである。本実施形態においては、ドキュメントが学習指導要領である場合を説明する。即ち、テーマコードは学習指導要領コードであり、テーマの属性を保持するテーマデータは学習指導要領データである。
【0039】
テーマの属性を保持するテーマデータ(学習指導要領データ)の例については、後で
図5、
図10、
図17等を参照しながら説明する。
【0040】
コンテンツは、まとまった内容の情報である。コンテンツは、動画や、音声や、演劇や、文芸や、画像(写真等)や、コミックや、アニメーションや、コンピューターゲーム等の様々な形態のいずれかであり得る。コンテンツは、通信回線(インターネット等)を介してユーザーの端末装置に対して配信されるものでもよいし、放送信号としてユーザーの放送受信機に対して配信されるものでもよいし、HDD(ハードディスク装置)やSSD(ソリッドステートドライブ)などといった記録媒体に記録されているものであってもよい。個々のコンテンツは、コンテンツIDによって識別される。あるいは、コンテンツは、その他の情報によって識別されてもよい。例えばコンテンツのタイトルが識別情報として機能するならば、個々のコンテンツがタイトル(の文字列)によって識別されてもよい。コンテンツの属性としては、タイトル、コンテンツ概要、テーマコード(学習指導要領コード)を含む。タイトルは、コンテンツのタイトル(題目)を表す文字列(テキスト)である。コンテンツ概要は、コンテンツの趣旨や内容をまとめた概要文のテキストである。テーマコード(学習指導要領コード)は、実体「テーマ」において説明したものである。なお、タイトルやコンテンツ概要などといったコンテンツに関わるテキストは、当該コンテンツを特徴付ける鍵となる概念(語)を含む場合が多い。つまり、タイトルやコンテンツ概要などといったコンテンツに関わるテキストから知識が抽出され得る。
【0041】
実体「テーマ」と実体「コンテンツ」との間に関係が存在する。この関係は、テーマコード(学習指導要領コード)によって関連付けられる。つまり、実体「コンテンツ」が持つ属性「テーマコード(学習指導要領コード)」の値が、当該「コンテンツ」がどの「テーマ」に関連付けられるかを規定する。実体「テーマ」と実体「コンテンツ」とは、1対N(ただし、0≦N)に対応付けられる。即ち、特定の「テーマ」は、0個以上の「コンテンツ」に関連付けられる。
【0042】
図3は、本実施形態によるナレッジ情報生成装置の概略機能構成を示すブロック図である。図示するように、ナレッジ情報生成装置20は、コンテンツデータ取得部201と、テーマデータ取得部202と、要素および題材抽出部203(要素と題材とを抽出する機能部である)と、構造化処理部204と、を含んで構成される。前述の通り、ナレッジ情報生成装置20が持つ機能を、コンピューターや電子回路等によって実現することができる。
【0043】
コンテンツデータ取得部201は、コンテンツデータ(学習コンテンツデータ)1100を取得し、そのコンテンツデータ(学習コンテンツデータ)1100を要素および題材抽出部203に渡す。コンテンツデータ取得部201は、少なくとも一時的に、コンテンツデータ1100を記憶する手段を備える。コンテンツデータは、コンテンツ(学習コンテンツ)に関する情報である。コンテンツデータは、そのコンテンツ(学習コンテンツ)が属するテーマコード(学習指導要領コード)と、そのコンテンツ(学習コンテンツ)の内容を説明するテキストデータとを含む。このテーマコード(学習指導要領コード)とテキストデータとは、相互に関連付けられている。本実施形態においては、テーマコードが学習指導要領コードであるので、当該学習指導要領コードに属するコンテンツ(学習コンテンツ)に関する情報である学習コンテンツデータが、コンテンツデータ取得部201によって取得される。コンテンツ(学習コンテンツ)の内容を説明するテキストデータは、例えば、そのコンテンツ(学習コンテンツ)のタイトル(題名)を表すテキストと、そのコンテンツ(学習コンテンツ)の概要文のテキストとを含む。なお、コンテンツデータ取得部201は、磁気ハードディスク装置や磁気テープ等の記録媒体からコンテンツデータを読み取ったり、外部の装置から通信によってコンテンツデータを受信したりすることによって、コンテンツデータを取得する。また、コンテンツデータ取得部201は、ユーザーの入力操作などによってコンテンツデータを取得してもよい。学習コンテンツデータの例については、後で
図4、
図8、
図9、および
図16を参照して説明する。
【0044】
つまり、コンテンツデータ取得部201は、コンテンツを識別するためのコンテンツ識別情報と、前記コンテンツ識別情報に関連付けられるコンテンツテキスト情報と、の対を含むコンテンツデータを取得する。
【0045】
テーマデータ取得部202は、テーマデータ(学習指導要領データ)を取得し、そのテーマデータを要素および題材抽出部203に渡す。テーマデータ(学習指導要領データ)は、テーマコード(学習指導要領コード)とテキストデータとを含む。テーマデータ(学習指導要領データ)において、このテーマコード(学習指導要領コード)とテキストデータとは、相互に関連付けられている。テーマデータに含まれるテキストデータは、そのテーマコード(学習指導要領コード)に対応する説明文等のテキストである。なお、テーマデータ取得部202は、磁気ハードディスク装置や磁気テープ等の記録媒体からテーマデータを読み取ったり、外部の装置から通信によってテーマデータを受信したりすることによって、テーマデータを取得する。また、テーマデータ取得部202は、前述のコンテンツデータと同様に、ユーザーの入力操作などによってテーマデータを取得してもよい。
【0046】
つまり、テーマデータ取得部202は、テーマを識別するためのテーマコードと、前記テーマコードに関連付けられるテーマテキスト情報と、の対を含むテーマデータを取得する。
【0047】
要素および題材抽出部203は、コンテンツデータ取得部201から取得したコンテンツ(学習コンテンツ)に関するテキストデータ(学習コンテンツデータに含まれるテキストデータ)と、テーマデータ取得部202から取得したテーマコード(学習指導要領コード)に関するテキストデータとを基に、要素である単語および題材である単語の抽出を行う。
【0048】
ここで、「要素」とは、特定のテーマ(学習指導要領における単元等)を構成する重要な概念である。要素は、単語(特に、名詞)として表わされる。「要素である単語」とは、要素を表す単語(名詞等)である。また、「題材」とは、上記の「要素」の理解につながる材料である。「題材である単語」とは、その題材を表す単語(名詞等)である。後で説明する「要素となる名詞(学習要素となる名詞)」とは、ここでの「要素である単語」と同一または類似のものである。また、後で説明する「題材となる名詞」とは、ここでの「題材である単語」と同一または類似のものである。
【0049】
要素および題材抽出部203は、コンテンツテキスト情報から抽出した語の中からテーマテキスト情報に含まれる語であるか否かに基づいて「要素となる語」を決定するとともに、前記コンテンツテキスト情報から抽出した語のそれぞれについて重要度に関するスコアを求めて、当該スコアに基づいて前記コンテンツテキスト情報から抽出した語の中から「題材となる語」を決定する。
【0050】
なお、要素および題材抽出部203は、前記コンテンツテキスト情報から抽出した語のうちの重要度のスコアが上位所定数の語を、前記「題材となる語」として決定してよい。
【0051】
また、要素および題材抽出部203は、ポジションランク(PositionRank)の方法またはTF-IDF(語の出現頻度およびドキュメントの逆出現頻度)の方法を用いることによって、前記コンテンツテキスト情報から抽出した語のそれぞれの重要度に関するスコアを求めてよい。なお、要素および題材抽出部203は、ポジションランクやTF-IDF以外の方法を用いることによって、語の重要度に関するスコアを求めてもよい。
【0052】
また、要素および題材抽出部203は、前記コンテンツテキスト情報から抽出した語のうち、重要度のスコアが上位所定数の語であって且つ「要素となる語」として決定された語については、「題材となる語」から除外するよう決定してよい。
【0053】
構造化処理部204は、テーマコードと、当該テーマコードに関してコンテンツテキスト情報から抽出された「要素となる語」および「題材となる語」と、を関連付けることによって成るナレッジ情報を生成する。構造化処理部204が生成するナレッジ情報の具体例は、前記の通り、グラフ構造を有するナレッジグラフである。ナレッジグラフについては、後で
図7や
図13を参照しながら説明する。
【0054】
なお、構造化処理部204は、テーマコードに対応するノードと、「要素となる語」に対応するノードと、「題材となる語」に対応するノードとを有し、前記テーマコードに対応するノードと、当該テーマコードに対応するノードに関連する前記「要素となる語」に対応するノードと、の間に設けた第1階層リンクと、前記「要素となる語」に対応するノードと、当該「要素となる語」に対応するノードに関連する前記「題材となる語」に対応するノードと、の間に設けた第2階層リンクと、を持つグラフ構造のデータとして、前記ナレッジ情報を生成してよい。後で説明する
図7や
図13に例示するナレッジグラフは、そのような第1階層リンクと第2階層リンクを持つように構成される。上記の第2階層リンクの有無は、「要素となる語」と「題材となる語」との間の直接の関係の有無を表す情報である。
【0055】
図4は、コンテンツデータ(学習コンテンツデータ)の構成の例を示す概略図である。図示するように、コンテンツデータ(学習コンテンツデータ)1100は、コンテンツID・1104と、テキスト1101(コンテンツテキスト情報)と、テーマコード(学習指導要領コード)1102とを含むように構成される。コンテンツID・1104は、コンテンツごとにユニークに付与されて、コンテンツを識別することのできる識別情報である。コンテンツデータ(学習コンテンツデータ)1100は、特定のコンテンツ(本実施形態においては、学習コンテンツ)について記述されたデータである。図示するコンテンツデータは、1件のコンテンツ(学習コンテンツ)に関して記述されたデータである。コンテンツ(学習コンテンツ)ごとにこのコンテンツデータ(学習コンテンツデータ)1100が存在してよい。テキスト1101は、当該コンテンツ(当該学習コンテンツ)のタイトル(題名)とコンテンツ概要とのテキストの情報を持つ。なお、テキスト1101が、タイトル(題名)やコンテンツ概要以外のテキストの情報を持ってもよい。テキスト1101が、コンテンツに関わる他のテキストの情報(一例として、字幕テキスト)を持つようにしてもよい。テーマコード(学習指導要領コード)1102は、当該コンテンツが関連付けられる(属する)テーマコード(学習指導要領コード)のデータである。図示する例では、テーマコード(学習指導要領コード)1102の値は、16桁の十進数で「8361233512100000」である。テーマコード(学習指導要領コード)は、そのテーマに付与されたコード情報であり、例えば任意の桁数の数値あるいは文字列等であってよい。
【0056】
図4に示すコンテンツデータ(学習コンテンツデータ)が、コンテンツデータ取得部201によって取得され、要素および題材抽出部203に渡される。
【0057】
図5は、テーマデータ(学習指導要領データ)の構成の例を示す概略図である。図示するように、テーマデータ(学習指導要領データ)1200は、テーマコード(学習指導要領コード)1201と、テーマ項目テキスト1202(テーマテキスト情報)と、学校種別1203と、教科1204とを含むように構成される。これらのうち、学校種別1203と、教科1204とは、テーマデータが学習指導要領データである場合に特有のデータ項目である。
【0058】
テーマデータ(学習指導要領データ)は、テーマコード(学習指導要領コード)ごとに存在する。テーマデータ(学習指導要領データ)において、テーマコード(学習指導要領コード)1201は主キーである。
図4においても説明したように、テーマコード(学習指導要領コード)1201の値は、本実施形態においては16桁の十進数であるが、テーマコード(学習指導要領コード)の値の形態(桁数等)は異なっていてもよい。テーマ項目テキスト1202は、当該テーマコード(当該学習指導要領コード)の説明文のテキストである。図示する例では、テーマ項目テキスト1202は、学習指導要領(理科)における「運動の速さと向き」について記述しているテキストである。学校種別1203は、当該学習指導要領(テーマ)が対象とする学校の種別(小学校、中学校、高等学校等)を表すデータである。教科1204は、当該学習指導要領(テーマ)が対象とする教科を表すデータ(本例においては「理科」)である。
【0059】
[要素および題材を抽出する処理]
次に、要素および題材抽出部203が、コンテンツデータ(学習コンテンツデータ)1100とテーマデータ(学習指導要領データ)1200とを基に、ナレッジ情報を生成する処理の手法について説明する。なお、要素および題材抽出部203は、コンテンツデータ(学習コンテンツデータ)1100と、そのコンテンツデータ(学習コンテンツデータ)1100に対応付けられているテーマデータ(学習指導要領データ)1200との組合せを、処理対象とする。この対応付けは、テーマコード(学習指導要領コード)(1102および1201)の値によって行われている。
【0060】
要素および題材抽出部203は、コンテンツデータ(学習コンテンツデータ)1100のテキスト1101から名詞を抽出する処理を行う。この名詞の抽出は、形態素解析処理によって行われる。また、要素および題材抽出部203は、テーマデータ(学習指導要領データ)1200のテーマ項目テキスト1202から、同様に形態素解析処理によって、名詞を抽出する。次に要素および題材抽出部203は、コンテンツデータ(学習コンテンツデータ)1100のテキスト1101から抽出された名詞のそれぞれに関して、重要度によるスコアリングを行う。名詞のスコアリングを行う手法としては、PositionRankやTF-IDF(term frequency - inverse document frequency)などといった手法を用いることができる。PositionRankは、学術論文のタイトルと概要文からキーフレーズを抽出することを目的とする手法であり、本実施形態において名詞のスコアリングに適用することができる。なお、PositionRankもTF-IDFも既存の技術である。
【0061】
なお、本実施形態では、PositionRankの手法を用いて、タイトルと概要文からキーワードやキーフレーズを抽出しているが、他の手法を用いて、他のデータからキーワードやキーフレーズを抽出してもよい。例えば、動画コンテンツ(放送コンテンツを含む)に付随する字幕テキストデータ等からキーワードやキーフレーズを抽出するようにしてもよい。
【0062】
次に、要素および題材抽出部203は、スコアリングの結果に基づいて、スコアの降順に(即ち重要度の高い名詞の順に)、コンテンツデータ(学習コンテンツデータ)1100のテキスト1101から抽出された名詞の並べ替え(ソーティング)を行う。要素および題材抽出部203は、この並べ替え後の順序の名詞の中から、要素となる名詞(学習要素となる名詞)と、題材となる名詞とを取得する。なお、要素および題材抽出部203が取得する題材となる名詞の数は、最大でN(N≧0)である。Nの値は、設定可能なパラメーターとしてよい。
【0063】
具体的には、要素および題材抽出部203は、コンテンツデータ(学習コンテンツデータ)1100のテキスト1101から抽出された名詞のうち、テーマデータ(学習指導要領データ)1200のテーマ項目テキスト1202から抽出された名詞のいずれかと一致するものを、要素となる名詞(学習要素となる名詞)として取得する。また、要素および題材抽出部203は、コンテンツデータ(学習コンテンツデータ)1100のテキスト1101から抽出された名詞のうち、テーマデータ(学習指導要領データ)1200のテーマ項目テキスト1202から抽出された名詞のどれとも一致しない名詞で、且つ重要度において上位N個までの名詞を、題材となる名詞として取得する。
【0064】
図6は、コンテンツデータ(学習コンテンツデータ)1100のテキスト1101から抽出された名詞を、スコアの降順に並べ替えした結果の例を示す概略図である。
図6に示す結果には8個の名詞が含まれ、それらの名詞は、重要度のスコアの高い側から順に、「スカイダイビング」、「映像」、「ダイバー」、「速さ」、「カメラ」、「動き」、「運動」、および「相対性」である。これらの名詞は、
図4に示したコンテンツデータ(学習コンテンツデータ)1100の例が持つテキスト1101の、タイトル「スカイダイビングの撮影」、およびコンテンツ概要「スカイダイビングのダイバーを撮影した映像です。同じ速さで落ちているカメラで撮った映像では、落ちているようには見えません。スカイダイビングの動きを観察し、運動の相対性に気づく。」というテキストから抽出されたものである。
【0065】
これら8つの名詞のうち、4番目の「速さ」と7番目の「運動」とは、テーマデータ(学習指導要領データ)1200のテーマ項目テキスト1202から抽出された名詞と一致するものである。よって、要素および題材抽出部203は、これらの「速さ」および「運動」を、要素となる名詞(学習要素となる名詞)として取得する。また、要素および題材抽出部203は、上記の4番目の「速さ」と7番目の「運動」とを除いた残りの6個の名詞のうち、重要度のスコアが上位N位までの名詞を、題材となる名詞として取得する。即ち、要素および題材抽出部203は、例えばN=1の場合には、重要度のスコアが1番目(最上位)の「スカイダイビング」を、題材となる名詞として取得する。そして、残りの名詞、即ち、2番目の「映像」と、3番目の「ダイバー」と、5番目の「カメラ」と、6番目の「動き」と、8番目の「相対性」とは、要素となる名詞(学習要素となる名詞)としても題材となる名詞としても取得されない。
【0066】
本例の学習コンテンツの場合には、理科の運動や速さについて教えることに関して、名詞「スカイダイビング」は学習指導要領には記述されていないが、日常や身近な話題として題材となる名詞として捉えることができる。言い換えれば、「スカイダイビング」のように題材となる名詞は、学習コンテンツ制作者が持つ教え方のノウハウによりコンテンツ内での題材として登場するためである。
【0067】
以上のように、要素および題材抽出部203は、テーマデータ(学習指導要領データ)1200のテーマ項目テキスト1202を参照することによって、コンテンツデータ(学習コンテンツデータ)1100の例が持つテキスト1101の中から、要素となる名詞(学習要素となる名詞)と題材となる名詞とを抽出する。要素および題材抽出部203は、
テーマコード(学習指導要領コード)と、抽出結果の情報(要素となる名詞(学習要素となる名詞)および題材となる名詞の情報)、即ち
図6の例では「速さ」、「運動」、および「スカイダイビング」を、構造化処理部204に渡す。
【0068】
[ナレッジを構造化する処理]
次にナレッジを構造化する処理について説明する。構造化処理部204は、要素および題材抽出部203から受け取る上記の情報に基づいて構造化の処理を行い、ナレッジグラフとして出力する。
【0069】
図7は、構造化処理部204が、要素および題材抽出部203から渡される情報についての処理を行った結果であるナレッジグラフの例を示す概略図である。即ち、構造化処理部204は、要素および題材抽出部203から渡される、要素となる名詞(学習要素となる名詞)、題材となる名詞、およびテーマコード(学習指導要領コード)とを受け取り、これらをセットとして構造化する。
【0070】
図示する形態において、ナレッジグラフ(ナレッジ情報)は、階層構造を表すグラフである。このナレッジグラフは、テーマコード(学習指導要領コード)である「8323233411200000」と、要素となる名詞(学習要素となる名詞)である「運動」および「速さ」と、題材となる名詞である「スカイダイビング」とにそれぞれ対応する4つのノードを持つ。これらのノードは、テーマコード(学習指導要領コード)、要素、および題材の3つの階層のいずれかに属する。つまり、本例では、ノード「8323233411200000」はテーマコード(学習指導要領コード)の階層に属する。また、ノード「運動」および「速さ」のそれぞれは、要素の階層に属する。また、ノード「スカイダイビング」は、題材の階層に属する。テーマコード(学習指導要領コード)-要素-題材は、親子関係(上下関係)を表す。ノード間のリンクは、この親子関係を表す。即ち、テーマコード(学習指導要領コード)のノード「8323233411200000」を親として、その親からは、子である要素のノード「運動」および「速さ」のそれぞれへのリンクが存在する。また、要素のノード「速さ」からは、さらにその子である題材のノード「スカイダイビング」へのリンクが存在する。なお、本例では、題材「スカイダイビング」の親を、要素(学習要素)のノードの中で最もスコアの高い単語のノードとしている。なお、題材のノードにつながる要素(学習要素)のノードを、別の選び方で選んでもよい。
【0071】
[1つのテーマコード(学習指導要領コード)に対応する複数のコンテンツ(学習コンテンツ)から抽出したナレッジを、統合して出力する例]
なお、1つのテーマコード(学習指導要領コード)に関して複数のコンテンツ(学習コンテンツ)が存在していた場合には、構造化処理部204は、それら複数のコンテンツに関するコンテンツデータ(学習コンテンツデータ)からの名詞の抽出結果をすべてまとめて構造化してもよい。以下においてその例を説明する。
【0072】
図8および
図9は、共通のテーマコード(学習指導要領コード)を持つ2つのコンテンツ(学習コンテンツ)についてのコンテンツデータの例を示す概略図である。
図8に示す第1のコンテンツデータ(学習コンテンツデータ)1100は、「地球温暖化」というタイトルを持つコンテンツ(学習コンテンツ)についてのコンテンツデータである。このコンテンツデータ(学習コンテンツデータ)1100において、テーマコード(学習指導要領コード)の値は「8323233411200000」である。
図9に示す第2のコンテンツデータ(学習コンテンツデータ)1100は、「地球環境の悪化」というタイトルを持つコンテンツ(学習コンテンツ)についてのコンテンツデータである。このコンテンツデータ(学習コンテンツデータ)1100において、テーマコード(学習指導要領コード)の値は「8323233411200000」であり、
図8に示した値と同一である。
【0073】
図10は、
図8および
図9に示したそれぞれのコンテンツデータ(学習コンテンツデータ)1100に対応するテーマデータ(学習指導要領データ)1200の例を示す概略図である。
図10に示すテーマデータ(学習指導要領データ)1200のテーマコード(学習指導要領コード)1201の値は「8323233411200000」である。
図10のテーマデータ(学習指導要領データ)1200は、このテーマコード(学習指導要領コード)の値により、
図8および
図9のコンテンツデータ(学習コンテンツデータ)1100と対応付けられる。
図10のテーマデータ(学習指導要領データ)1200において、学校種別1203の値は「中学校」であり、教科1204の値は「社会」である。
【0074】
図11は、
図8に示したコンテンツデータ(学習コンテンツデータ)1100が持つテキスト1101から抽出された名詞を、重要度のスコアの降順に(重要な順に)並べ替えた結果のリストを表す概略図である。図示するように、
図8に示したテキスト1101から抽出された名詞は、順に、「地球温暖化」、「問題」、「深刻」、「地球環境」、「甚大」、「現代」、「メカニズム」、および「温暖化」の8個である。これらの名詞のうち、
図10のテーマデータ(学習指導要領データ)1200が持つテーマ項目テキスト1202から抽出された名詞に一致するものは、4番目の「地球環境」のみである。要素および題材抽出部203は、この「地球環境」を、要素となる名詞として取得する。要素および題材抽出部203は、残りの7個の名詞のうちの上位N個を、題材となる名詞として取得する。
図11の例ではN=1であるので、要素および題材抽出部203は、1番目の「地球温暖化」のみを、題材となる名詞として取得する。その他の名詞(2番目、3番目、5番目、6番目、7番目、および8番目)は、要素となる名詞でもなく、題材となる名詞でもない。
【0075】
図12は、
図9に示したコンテンツデータ(学習コンテンツデータ)1100が持つテキスト1101から抽出された名詞を、重要度のスコアの降順に(重要な順に)並べ替えた結果のリストを表す概略図である。
図9に示したテキスト1101から抽出された名詞(あるいは名詞句)は、順に、「地球環境」、「オゾン層の破壊」、「地球温暖化」、「砂漠化」、「森林」、および「深刻」の6個である。これらの名詞のうち、
図10のテーマデータ(学習指導要領データ)1200が持つテーマ項目テキスト1202から抽出された名詞に一致するものは、1番目の「地球環境」のみである。要素および題材抽出部203は、この「地球環境」を、要素となる名詞として取得する。要素および題材抽出部203は、残りの5個の名詞(または名詞句)のうちの上位N個を、題材となる名詞として取得する。
図12の例ではN=1であり、且つ1番目の「地球環境」は要素となる名詞として抽出されているため、要素および題材抽出部203は、2番目の「オゾン層の破壊」のみを、題材となる名詞(名詞句)として取得する。その他の名詞(3番目、4番目、5番目、および6番目)は、要素となる名詞でもなく、題材となる名詞でもない。
【0076】
構造化処理部204は、
図11において抽出されている要素となる名詞(学習要素となる名詞)および題材となる名詞と、
図12において抽出されている要素となる名詞(学習要素となる名詞)および題材となる名詞と、の両方を統合して構造化する処理を行う。つまり、構造化処理部204は、共通のテーマコード(学習指導要領コード)に対応付けられる2つのコンテンツデータから抽出される情報を投合して、ナレッジグラフを生成する。
【0077】
図13は、
図8に示したコンテンツデータ(学習コンテンツデータ)1100から抽出された情報(
図11において抽出されている情報)と、
図9に示したコンテンツデータ(学習コンテンツデータ)1100から抽出された情報(
図12において抽出されている情報)との両方を統合して、構造化処理部204が生成したナレッジグラフ(ナレッジ情報)の例を示す概略図である。
図13に示すナレッジグラフは、4つのノードを持つ。ノード「8323233411200000」は、テーマコード(学習指導要領コード)を表すノードであり、テーマコードの階層に属する。ノード「地球環境」は、
図8に示したコンテンツデータ(学習コンテンツデータ)1100および
図9に示したコンテンツデータ(学習コンテンツデータ)1100から共通に抽出された、要素となる名詞を表すノードである。名詞「地球環境」は、これらの2つのコンテンツデータから抽出されたものであるが、同一の名詞(同一の概念)であるので、ナレッジグラフ上で統合される。ノード「地球環境」は、要素の階層に属する。ノード「地球温暖化」は、
図8に示したコンテンツデータ(学習コンテンツデータ)1100から抽出された、題材となる名詞を表すノードである。ノード「オゾン層の破壊」は、
図9に示したコンテンツデータ(学習コンテンツデータ)1100から抽出された、題材となる名詞を表すノードである。ノード「地球温暖化」およびノード「オゾン層の破壊」は、ともに、題材の階層に属する。
【0078】
図13に示すナレッジグラフは、次の3本のリンクを持つ。親であるノード「8323233411200000」(テーマコード)から、子であるノード「地球環境」(要素となる名詞)へのリンクが存在する。また、このノード「地球環境」(要素となる名詞)を親として、子であるノード「地球温暖化」および同じく子であるノード「オゾン層の破壊」につながるそれぞれ1本のリンクが存在する。
【0079】
以上のように、ナレッジ情報生成装置20は、共通のテーマコード(学習指導要領コード)に対応する複数のコンテンツについてのコンテンツデータを基に、まとめて1つのナレッジグラフ(ナレッジ情報)を生成する。
【0080】
図14は、ナレッジ情報生成装置20がナレッジグラフ(ナレッジ情報)を生成する処理の手順を示すフォローチャートである。なお、このフローチャートは、1件のコンテンツ(学習コンテンツ)のコンテンツデータ(学習コンテンツデータ)を対象として、当該コンテンツデータ(学習コンテンツデータ)に対応するテーマデータ(学習指導要領データ)を既に取得している状態からの処理の流れを示すものである。以下、このフローチャートに沿って動作手順を説明する。
【0081】
まず、ステップS001において、要素および題材抽出部203は、コンテンツデータ(学習コンテンツデータ)1100のテキスト1101から、名詞を抽出する。前述の通り、既存技術である形態素解析等の処理によって、テキストからの名詞の抽出が可能である。
【0082】
次にステップS002において、要素および題材抽出部203は、ステップS001において処理対象としたコンテンツデータ(学習コンテンツデータ)1100に対応するテーマデータ(学習指導要領データ)1200のテーマ項目テキスト1202から、名詞を抽出する。なお、コンテンツデータ(学習コンテンツデータ)1100とテーマデータ(学習指導要領データ)1200とは、テーマコード(学習指導要領コード)の値によって対応付けられる。
【0083】
次にステップS003において、要素および題材抽出部203は、ステップS001においてコンテンツデータ(学習コンテンツデータ)1100のテキスト1101から抽出された名詞のそれぞれについて、重要度によるスコアリングを行う。名詞のスコアリングの処理は、例えば、既存技術である前述のPositionRank等を用いて行うことができる。また、要素および題材抽出部203は、スコアの数値の降順に(つまり、重要度が高い側の名詞から低い側の名詞に順に並ぶように)、コンテンツデータ(学習コンテンツデータ)1100のテキスト1101から抽出された名詞をソーティングする処理を行う。
【0084】
ステップS004は、繰り返し処理の制御を表す。すなわち、ステップS003の処理によってソーティング済みの名詞のそれぞれについて、要素および題材抽出部203は、スコアの数値の降順に、ステップS005~S008の処理を繰り返して行う。つまり、コンテンツデータ(学習コンテンツデータ)1100のテキスト1101から抽出された名詞(名詞句を含んでもよい)のそれぞれについて、要素および題材抽出部203は、要素となる名詞(学習要素となる名詞)であるか、題材となる名詞であるか、どちらにもならない名詞であるかを判定する処理を行う。この繰り返しループの中の処理は、次のステップS005、S006、S007、S008でのそれぞれにおいて説明する通りである。
【0085】
ステップS005において、要素および題材抽出部203は、現在判定対象としている名詞が、ステップS002においてテーマデータ(学習指導要領データ)1200のテーマ項目テキスト1202から抽出された名詞のいずれかと一致するか否かを判定する。一致する場合(ステップS005:YES)には、ステップS006に進む。一致しない場合(ステップS005:NO)には、ステップS007に進む。
【0086】
ステップS006に進んだ場合には、同ステップにおいて、要素および題材抽出部203は、現在判定対象としている名詞を、要素となる名詞として取得する。ステップS006の処理の終了後には、当該判定対象の名詞についての処理を終え、次の名詞(残っている場合)を処理するためにステップS004に戻る。
【0087】
次にステップS007に進んだ場合には、同ステップにおいて、要素および題材抽出部203は、現在判定対象としている名詞が題材となる名詞として取得すべきであるか否かを判定する。言い換えれば、既に取得した題材となる名詞の数(題材の取得数)がN未満であるか否かを判定する。Nの値は、前述の通り、予め設定される。ここまでの題材の取得数がN未満である場合(ステップS007:YES)には、ステップS008に進む。ここまでの題材の取得数が既にNに達している場合(ステップS007:NO)には、当該判定対象の名詞を題材となる名詞として取得せず、当該判定対象の名詞についての処理を終え、次の名詞(残っている場合)を処理するためにステップS004に戻る。
【0088】
次にステップS008に進んだ場合には、同ステップにおいて、要素および題材抽出部203は、現在判定対象としている名詞を、題材となる名詞として取得する。ステップS008の処理の終了後には、当該判定対象の名詞についての処理を終え、次の名詞(残っている場合)を処理するためにステップS004に戻る。
【0089】
すべての名詞の候補について、ステップS004から始まる繰り返し処理が完了すると、その繰り返しを抜けてステップS009に移る。
【0090】
次にステップS009において、構造化処理部204は、ここまでの処理において抽出された情報を構造化し、ナレッジグラフを生成して出力する。つまり、構造化処理部204は、テーマコード(学習指導要領コード)と、要素となる名詞(学習要素となる名詞)と、題材となる名詞との情報をセットにして、それらの関係をグラフ構造で表わしたデータ(ナレッジグラフ)を生成し、出力する。
【0091】
次に、上で説明したナレッジ情報生成装置が生成したナレッジ情報を用いて関連コンテンツの検索を行う方法について説明する。
【0092】
図15は、本実施形態による関連コンテンツ検索装置の概略機能構成を示すブロック図である。図示するように、関連コンテンツ検索装置30は、ナレッジ情報取得部301と、テーマデータ取得部302と、コンテンツデータ取得部303と、コンテンツ連携処理部304と、コンテンツID取得部305と、関連コンテンツ検索部306と、提示部307とを含んで構成される。前述の通り、関連コンテンツ検索装置30が持つ機能を、コンピューターや電子回路等によって実現することができる。
【0093】
なお、関連コンテンツ検索装置30が実行する処理において、コンテンツは、コンテンツID(コンテンツ識別情報)によって一意に識別される。即ち、あるコンテンツを、ナレッジグラフ(ナレッジ情報)内の特定のノード(題材となる語のノード)に結び付ける処理は、そのコンテンツのコンテンツIDをそのノードに結び付ける処理と等価である。また、関連コンテンツを検索する際に、検索の元となるコンテンツは、そのコンテンツのコンテンツIDによって識別される。また、検索の元となるコンテンツに基づいて関連コンテンツの検索を行った結果として、関連コンテンツを取得する処理と、当該関連コンテンツを識別する情報であるコンテンツIDを取得する処理とは、等価である。つまり、関連コンテンツ検索装置が行う処理において、1つのコンテンツに関して行う処理と、そのコンテンツのコンテンツIDに関して行う処理は、互いに等価である。
【0094】
ナレッジ情報取得部301は、様々な知識を表すナレッジ情報を取得して、コンテンツ連携処理部304に渡す。ナレッジ情報取得部301は、少なくとも一時的にナレッジ情報を記憶する手段を備える。
【0095】
ナレッジ情報取得部301は、具体的には、テーマを識別するためのテーマコードと、当該テーマコードに関係するコンテンツに関する語である「要素となる語」と、当該テーマコードに関係するコンテンツに関する語である「題材となる語」と、を関連付けることによって成るナレッジ情報(ナレッジグラフ)、を取得する。なお、ナレッジ情報は、特定のテーマコードに関して、1つの「要素となる語」が1つの「題材となる語」との間の直接の関係を持つか否かを表す情報を含むようにしてよい。ナレッジ情報取得部301が取得するナレッジグラフの構成の一例については、後で
図18等を参照しながら説明する。
【0096】
テーマデータ取得部302は、テーマデータ(学習指導要領データ)1200を取得し、そのテーマデータ(学習指導要領データ)1200をコンテンツ連携処理部304に渡す。テーマデータ取得部302は、少なくとも一時的にテーマデータ(学習指導要領データ)1200を記憶する手段を備える。テーマデータ(学習指導要領データ)1200は、テーマコード(学習指導要領コード)や、テーマ項目テキストや、学校種別や、教科等といったデータ項目を有する。
【0097】
コンテンツデータ取得部303は、コンテンツデータ1150を取得し、そのコンテンツデータ1150をコンテンツ連携処理部304に渡す。コンテンツデータ取得部303は、少なくとも一時的にコンテンツデータ1150を記憶する手段を備える。コンテンツデータ1150は、コンテンツIDや、コンテンツタイトルのテキストや、コンテンツ概要のテキストや、キーワードリストや、当該コンテンツを再生する際にアクセスすべきストリームURLや、字幕テキストデータ等を含む。
【0098】
コンテンツデータ取得部303は、具体的には、コンテンツを識別するためのコンテンツ識別情報と、前記コンテンツ識別情報に関連付けられる1個以上のキーワードを含むキーワードリストと、を含むコンテンツデータを取得する。
【0099】
コンテンツ連携処理部304は、ナレッジ情報取得部301からナレッジグラフ(ナレッジ情報)を受け取り、テーマデータ取得部302からテーマデータ(学習指導要領データ)を受け取り、コンテンツデータ取得部303からコンテンツデータ1150を受け取る。コンテンツ連携処理部304は、受け取ったそれらのデータに基づいて、コンテンツをナレッジグラフ内に結び付ける(連携させる)処理を行う。コンテンツ連携処理部304は、連携処理後のナレッジグラフを、関連コンテンツ検索部306に渡す。コンテンツ連携処理部304による連携処理の詳細については、後でさらに説明する。
【0100】
コンテンツ連携処理部304は、具体的には、コンテンツデータが持つキーワードリストに含まれるキーワードが、ナレッジ情報(ナレッジグラフ)が持つ所定のテーマコードに関連付けられた「題材となる語」と一致する場合に、当該コンテンツデータが持つコンテンツ識別情報(コンテンツ)を、当該テーマコードに関連付けられた当該「題材となる語」に結び付ける処理を行うようにしてよい。
【0101】
また、コンテンツ連携処理部304は、1つのコンテンツ識別情報(コンテンツ)を1つの「題材となる語」に結び付ける際に、(1)当該コンテンツ識別情報に関連付けられたキーワードリストが、当該「題材となる語」と前記直接の関係を持つ前記「要素となる語」をキーワードとして含む場合には、当該コンテンツ識別情報を、「題材を例に要素を理解できるコンテンツ」のコンテンツ識別情報として結び付けを行い、(2)当該キーワードリストが、当該「題材となる語」と前記直接の関係を持つ前記「要素となる語」をキーワードとして含まない場合には、当該コンテンツ識別情報を「題材となるコンテンツ」のコンテンツ識別情報として結び付けを行うようにしてよい(
図20も参照)。
【0102】
コンテンツID取得部305は、コンテンツIDを取得し、そのコンテンツIDを関連コンテンツ検索部306に渡す。コンテンツID取得部305は、例えば、ユーザーがコンテンツIDを入力する操作、あるいはユーザーが行うその他の何らかの操作(例えば、画面上での特定のコンテンツのアイコン等の選択を行う操作)に基づいて、特定のコンテンツ(学習コンテンツや、その他のコンテンツ)のコンテンツIDを取得する。コンテンツIDは、個々のコンテンツを一意に識別するための情報である。コンテンツID取得部305が取得するコンテンツIDは、関連コンテンツ検索部306が関連コンテンツを検索する元となるコンテンツを識別する情報である。コンテンツID取得部305は、取得したコンテンツIDを、関連コンテンツ検索部306に渡す。
【0103】
関連コンテンツ検索部306は、コンテンツID取得部305からコンテンツIDを受け取る。また、関連コンテンツ検索部306は、コンテンツ連携処理部304からコンテンツの連携処理を行った後のナレッジグラフを受け取り、そのナレッジグラフに基づいて、コンテンツID取得部305から受け取ったコンテンツIDに関連するコンテンツを検索する。関連コンテンツ検索部306は、検索結果として得られたコンテンツに関する情報を、提示部307に渡す。
【0104】
具体的には、関連コンテンツ検索部306は、関連コンテンツの検索の元となる「元のコンテンツ識別情報」が取得されると、ナレッジ情報(ナレッジグラフ)を検索することによって、
(A)当該「元のコンテンツ識別情報」に関連付けられる前記キーワードリスト内の前記キーワードであって且つ前記ナレッジ情報内において特定のテーマコードに関連付けられた前記「題材となる語」と、共通の前記「題材となる語」を前記キーワードリスト内に有する、当該「元のコンテンツ識別情報」とは別の関連コンテンツのコンテンツ識別情報を、関連コンテンツ識別情報として取得し、または、
(B)当該「元のコンテンツ識別情報」に関連付けられる前記キーワードリスト内の前記キーワードであって且つ前記ナレッジ情報内において特定のテーマコードに関連付けられた前記「要素となる語」と、共通の前記「要素となる語」を前記キーワードリスト内に有する、当該「元のコンテンツ識別情報」とは別の関連コンテンツのコンテンツ識別情報を、関連コンテンツ識別情報として取得し、
取得した前記関連コンテンツ識別情報を検索結果として出力する。
【0105】
関連コンテンツ検索部306は、上記(B)の処理を、検索の際の「元のコンテンツ識別情報」が「題材を例に要素を理解できるコンテンツ」のコンテンツ識別情報であって、且つ当該関連コンテンツ識別情報が「題材を例に要素を理解できるコンテンツ」のコンテンツ識別情報である場合に限定して行うようにしてよい。
【0106】
関連コンテンツ検索部306による検索処理の詳細については、後でさらに説明する。
【0107】
提示部307は、コンテンツをユーザーに提示する。具体的には、提示部307は、動画コンテンツとして成るコンテンツの映像をディスプレイに表示したり、音声をスピーカーあるいはイヤフォン等から出力したりする。提示部307は、コンテンツID取得部305によって取得されたIDを有するコンテンツや、関連コンテンツ検索部306によって得られた検索結果であるコンテンツをユーザーに提示する。
【0108】
つまり、提示部307は、関連コンテンツ検索部306が出力した関連コンテンツ識別情報に基づいて、当該関連コンテンツ識別情報によって識別される関連コンテンツ、または当該関連コンテンツに関する情報を、提示するものである。
【0109】
図16は、コンテンツデータ取得部303が取得してコンテンツ連携処理部304に渡すコンテンツデータの構成の例を示す概略図である。ここで図示するコンテンツデータ1150は、
図4において示したコンテンツデータ1150との間で一部共通するデータ項目を有している。
図16に示すように、コンテンツデータ1150は、コンテンツID・1151と、タイトル1152と、コンテンツ概要1153と、キーワードリスト1154と、ストリームURL・1155と、字幕テキストデータ1156とを含む。ここで、タイトル1152とコンテンツ概要1153とを合わせたデータは、
図4において示したテキスト1101に相当する情報である。データの各項目の意味は、次の通りである。
【0110】
コンテンツID・1151は、個々のコンテンツを一意に識別するための識別情報である。タイトル1152は、コンテンツのタイトル(題名)を表すテキストである。コンテンツ概要1153は、コンテンツの概要を説明する文等のテキストである。キーワードリスト1154は、当該コンテンツを特徴づけるキーワードのリストである。キーワードリスト1154に含まれるキーワードは、タイトル1152やコンテンツ概要1153から抽出された語のリストであってもよいし、タイトル1152やコンテンツ概要1153とは別に設定された語のリストであってもよい。ストリームURL・1155は、当該コンテンツを再生する際等のアクセス先の場所を示す情報である。字幕テキストデータ1156は、当該コンテンツを再生する際に画面に表示され得る字幕のテキストである。字幕テキストは、コンテンツの内容を適切に表すテキストデータの一つである。
【0111】
図17は、関連コンテンツ検索装置30が処理対象とするテーマコード(学習指導要領コード)についてのテーマデータ(学習指導要領データ)の一例を示す概略図である。後で説明する関連コンテンツ検索装置30による処理の例は、テーマコード(学習指導要領コード)「8361233512200000」を処理対象とする。図示するテーマデータ(学習指導要領データ)1200は、テーマコード(学習指導要領コード)1201の値としてこの「8361233512200000」を持つ。また、図示するテーマ項目テキスト1202は、上記のテーマコード(学習指導要領コード)1201についての説明文(当該コードに関する学習における目標を記述した文)を含むテキストデータである。また、学校種別1203は「中学校」であり、教科1204は「理科」である。
【0112】
図18は、テーマコード(学習指導要領コード)「8361233512200000」に関して、前述のナレッジ情報生成装置20が生成したナレッジグラフ(ナレッジ情報)の例を示す概略図である。ナレッジ情報取得部301は、
図18において例示されるようなナレッジグラフのデータを外部から(例えば、ナレッジ情報生成装置20から)取得する。
【0113】
図18に示すナレッジグラフは、計7個のノードを持つ。これらのノードのうち、テーマコード(学習指導要領コード)の階層に属するノードは1個であり、「8361233512200000」である。また、要素(学習要素)の階層に属するノードは2個であり、それらは「力」および「運動」である。上記のノード「8361233512200000」から、要素(学習要素)の階層に属するノード「力」および「運動」のそれぞれへのリンクが存在する。また、題材の階層に属するノードは4個であり、それらは、「カーリング」、「台車」、「ボール」、および「自動車」である。上記のノード「力」から、題材の階層に属するノード「カーリング」および「台車」のそれぞれへのリンクが存在する。また、上記のノード「運動」から、題材の階層に属するノード「ボール」、および「自動車」のそれぞれへのリンクが存在する。なお、要素(学習要素)と題材との関係は、次の通りである。即ち、要素(学習要素)のノードと題材のノードとを結ぶリンクは、当該要素(学習要素)を学習する際に、当該題材は身近な例として挙げることのできるものであることを表す。
【0114】
例示したように、本実施形態のナレッジグラフは、テーマコード(学習指導要領コード)ごとに生成されたグラフのデータである。言い換えれば、ナレッジグラフでは、単語(概念)がテーマコード(学習指導要領コード)ごとにクラスター化(グループ化)されている。そのグラフにおいては、概念に相当するノードとノードとの間でのリンクが、両概念間の関連性を表す。関連コンテンツ検索装置30は、上記のようなノウハウを表すグラフのデータを活用する。つまり、コンテンツ連携処理部304は、教育コンテンツにとどまらずあらゆるコンテンツ同士を、学習という観点で連携させることができる。関連コンテンツ検索装置30は、コンテンツ連携処理部304によって連携された情報を用いて、あるコンテンツに関連する他のコンテンツ(学習コンテンツあるいはその他のコンテンツ)を検索し、ユーザーに対して提示することを可能とする。
【0115】
なお、特定のテーマコードに関するナレッジ情報(ナレッジグラフ)は、1つの「要素となる語」が1つの「題材となる語」との間の直接の関係を持つか否かを表す情報を含む。具体的には、要素の階層に属するノードと題材の階層に属するノードとの間の直接のリンクの有無が、上記「直接の関係を持つか否かを表す情報」である。
【0116】
[コンテンツ連携処理部304による処理の詳細]
ここでは、主として
図19および
図20を参照しながら、コンテンツ連携処理部304の処理について、さらに詳細に説明する。
【0117】
コンテンツ連携処理部304は、コンテンツデータ取得部303から渡されたコンテンツデータと、ナレッジ情報取得部301から渡された複数のナレッジグラフ(テーマコード(学習指導要領コード)ごとのナレッジグラフ)を基に、コンテンツをナレッジグラフに結びつける。処理対象とするコンテンツが、クラスター化された複数のナレッジグラフ内のどのテーマコード(学習指導要領コード)にあたるものであるかを推定するために、コンテンツ連携処理部304は、当該コンテンツのコンテンツデータが持つキーワード群(
図16に示したキーワードリスト1154)に対して、一致する単語数の最も多いテーマコード(学習指導要領コード)を特定し、そのテーマコード(学習指導要領コード)のクラスターを取得する。
【0118】
即ち、ここで言う「クラスター」は、1つのテーマコード(学習指導要領コード)に関するナレッジグラフ内の単語群に相当するものである。
【0119】
あるコンテンツのコンテンツデータ1150が持つキーワードリスト1154に含まれるキーワードの中に、取得されたクラスター(即ち、特定されたテーマコード(学習指導要領コード))のナレッジグラフが持つ要素(学習要素)に一致する単語がある場合、且つ当該クラスターのナレッジグラフが持つ題材に一致する単語がある場合には、コンテンツ連携処理部304は、そのコンテンツを、「題材を例に要素(学習要素)を学べるコンテンツ」(言い換えれば、「題材を例に要素を理解できるコンテンツ」)として、当該クラスターのナレッジグラフに結びつける。
【0120】
一方で、そのコンテンツのコンテンツデータ1150が持つキーワードリスト1154に含まれるキーワードの中に、当該クラスターのナレッジグラフが持つ要素(学習要素)に一致する単語がない場合(ただし、この場合も、そのキーワードの中に、当該クラスターのナレッジグラフが持つ題材に一致する単語はある)には、コンテンツ連携処理部304は、そのコンテンツを、「題材となるコンテンツ」として、当該クラスターのナレッジグラフに結び付ける。
【0121】
図19は、コンテンツをナレッジグラフにどのように結び付けるかを示すデシジョンテーブルである。同図において、「コンテンツA」は、ナレッジグラフに結び付けようとするコンテンツである。コンテンツAのキーワードリストは、コンテンツAに関するコンテンツデータ1150内のキーワードリスト1154である。また、「テーマコード(学習指導要領コード)B」は、コンテンツAを結び付ける対象である。つまり、コンテンツAを、テーマコード(学習指導要領コード)Bのナレッジグラフに結び付けようとするものである。
【0122】
図19のデシジョンテーブルが表す第1の命題は、「コンテンツAのキーワードリスト内に、テーマコード(学習指導要領コード)Bのナレッジグラフ内の「要素となる語」と一致するものがある」というもの(縦軸)であり、真偽により、コンテンツのナレッジグラフへの結び付け方が変わる。また、第2の命題は、「コンテンツAのキーワードリスト内に、テーマコード(学習指導要領コード)Bのナレッジグラフ内の「題材となる語」と一致するものがある」というもの(横軸)であり、この真偽によっても、コンテンツのナレッジグラフへの結び付け方が変わる。上記の第1および第2の命題の真偽に応じて4通りの場合がある。これらを便宜的に、<分類11>(第1の命題が真、且つ第2の命題が真)、<分類10>(第1の命題が真、且つ第2の命題が偽)、<分類01>(第1の命題が偽、且つ第2の命題が真)、<分類00>(第1の命題が偽、且つ第2の命題が偽)という分類で表す。なお、コンテンツAをナレッジグラフに結び付けようとする際にそもそもコンテンツAが持つキーワードリストの少なくとも一部が、テーマコード(学習指導要領コード)Bのナレッジグラフ内の「要素となる語(学習要素となる語)」あるいは「題材となる語」の少なくともいずれかに存在することを前提としている。この前提を置く場合には、上記の<分類00>は、あり得ない分類である。
【0123】
上記の<分類11>の場合には、コンテンツ連携処理部304は、コンテンツAを、テーマコード(学習指導要領コード)Bのナレッジグラフ内の「題材となる語」のノードに、「題材を例に要素(学習要素)を学べるコンテンツ」として結び付ける。上記の<分類10>の場合には、コンテンツ連携処理部304は、コンテンツAを、テーマコード(学習指導要領コード)Bのナレッジグラフ内のノードには結び付けない。上記の<分類01>の場合には、コンテンツ連携処理部304は、コンテンツAを、テーマコード(学習指導要領コード)Bのナレッジグラフ内の「題材となる語」のノードに、「題材となるコンテンツ」として結び付ける。なお、<分類00>は、前記の通りあり得ないため、考慮する必要がない。
【0124】
図20は、コンテンツ連携処理部304が、「8361233512200000」というテーマコード(学習指導要領コード)に対応するナレッジグラフに結び付けた(連携させた)コンテンツの例を示す概略図である。同図におけるナレッジグラフ自体は、
図18において説明したナレッジグラフと同じものである。即ち、このナレッジグラフは、テーマコードの階層においてノード「8361233512200000」を持ち、その下の要素(学習要素)の階層においてノード「力」およびノード「運動」を持つ。そして、このナレッジグラフは、題材の階層において、上記ノード「力」にリンクされる、ノード「カーリング」およびノード「台車」を持つ。また、このナレッジグラフは、題材の階層において、上記ノード「運動」にリンクされる、ノード「ボール」およびノード「自動車」を持つ。
【0125】
図20に示すように、コンテンツ1401および1411は、題材の階層におけるノード「カーリング」に結び付けられている。また、コンテンツ1402および1412は、題材の階層におけるノード「台車」に結び付けられている。また、コンテンツ1403および1413は、題材の階層におけるノード「ボール」に結び付けられている。また、コンテンツ1404および1414は、題材の階層におけるノード「自動車」に結び付けられている。コンテンツ1411に関するキーワード(
図16に示したキーワードリスト1154に格納される語であり、例えば名詞。以下同様。)は、語「カーリング」(題材)を含み、語「力」(要素(学習要素))を含まない。コンテンツ1401に関するキーワードは、語「カーリング」(題材)と、語「力」(要素(学習要素))とを含んでいる。コンテンツ1412に関するキーワードは、語「台車」(題材)を含み、語「力」(要素(学習要素))を含まない。コンテンツ1402に関するキーワードは、語「台車」(題材)と、語「力」(要素(学習要素))とを含んでいる。コンテンツ1413に関するキーワードは、語「ボール」(題材)を含み、語「運動」(要素(学習要素))を含まない。コンテンツ1403に関するキーワードは、語「ボール」(題材)と、語「運動」(要素(学習要素))とを含んでいる。コンテンツ1414に関するキーワードは、語「自動車」(題材)を含み、語「運動」(要素(学習要素))を含まない。コンテンツ1404に関するキーワードは、語「自動車」(題材)と、語「運動」(要素(学習要素))とを含んでいる。
【0126】
つまり、
図20において、コンテンツ連携処理部304によって連携されたコンテンツ1411、1412、1413、および1414は、各々のキーワードとして、題材である語(名詞等)を含むが、要素(学習要素)である語(名詞等)を含まない「題材となるコンテンツ」である。また、コンテンツ連携処理部304によって連携されたコンテンツ1401、1402、1403、および1404は、各々のキーワードとして、題材である語(名詞等)と、要素(学習要素)である語(名詞等)との両方を含む「題材を例に要素(学習要素)を学べるコンテンツ」である。なお、1つの題材のノードに連携する「題材となるコンテンツ」の個数は、0個以上の任意の個数である。また、1つの題材のノードに連携する「題材を例に要素(学習要素)を学べるコンテンツ」の個数もまた、0個以上の任意の個数である。
【0127】
[関連コンテンツ検索部306による処理の詳細]
ここでは、主として
図21および
図22を参照しながら、関連コンテンツ検索部306が関連コンテンツを検索する処理について、さらに詳細に説明する。
【0128】
関連コンテンツ検索部306は、コンテンツ連携処理部304から、ナレッジグラフに結びつけられたコンテンツの情報を受け取る。また、関連コンテンツ検索部306は、コンテンツID取得部305から、検索の基となるコンテンツID(例えばユーザーによって指定されたコンテンツ等のID)を受け取る。そして、関連コンテンツ検索部306は、コンテンツが結びつけられたナレッジグラフを検索することにより、コンテンツID取得部305から渡されたコンテンツIDによって特定されるコンテンツが、「題材となるコンテンツ」であるか、「題材を例に要素(学習要素)を学べるコンテンツ」であるかを判別する。「題材となるコンテンツ」とは、
図20で示したコンテンツ1411、1412、1413、および1414等である。「題材を例に要素(学習要素)を学べるコンテンツ」とは、
図20で示したコンテンツ1401、1402、1403、および1404等である。
【0129】
図21は、関連コンテンツ検索部306による検索の第1のパターンを示す概略図である。第1のパターンは、コンテンツID取得部305から指示されたコンテンツ(ここでは「元のコンテンツ」と呼ぶ。
図21に示す例では、コンテンツ1501。)が「題材となるコンテンツ」であったと判定されるときのパターンであり、関連コンテンツ検索部306は、当該コンテンツ(コンテンツ1501)と関連する関連コンテンツとして次の2種類のコンテンツを取得する。なお、関連コンテンツ検索部306は、これら2種類のそれぞれについて、0個以上の任意の数の関連コンテンツを検索結果として出力する。
【0130】
第1の種類は、元のコンテンツ(コンテンツ1501)がキーワードとして持つ題材である語と同じ語を題材である語として持つ「題材となるコンテンツ」(
図21に示す例では、コンテンツ1511)である。つまり、元のコンテンツ(コンテンツ1501)と同じ題材に関する別の「題材となるコンテンツ」である。関連コンテンツ検索部306は、この第1の種類のコンテンツを関連コンテンツとして検索することにより、ユーザーが興味を持つ題材についての関連コンテンツを探すことができる。
【0131】
第2の種類は、元のコンテンツ(コンテンツ1501)がキーワードとして持つ題材である語と同じ語を題材である語として持つ「題材を例に要素(学習要素)を学べるコンテンツ」(
図21に示す例では、コンテンツ1512)である。つまり、元のコンテンツ(コンテンツ1501)と同じ題材を基に、要素(学習要素)を学べるコンテンツである。関連コンテンツ検索部306は、この第2の種類のコンテンツを関連コンテンツとして検索することにより、ユーザーが興味を持つ題材から学習要素を学べるコンテンツ視聴への自然な動線を提供することができる。
【0132】
図22は、関連コンテンツ検索部306による検索の第2のパターンを示す概略図である。第2のパターンは、コンテンツID取得部305から指示されたコンテンツ(ここでは「元のコンテンツ」と呼ぶ。
図22に示す例では、コンテンツ1521。)が「題材を例に要素(学習要素)を学べるコンテンツ」であったと判定されるときのパターンである。
図22に示す例では、元のコンテンツであるコンテンツ1521が持つキーワードは、「カーリング」と「力」である。これらのうち、キーワード「カーリング」は、コンテンツが結び付けられているナレッジグラフにおいて、題材の階層に属するノードに対応するものである。また、キーワード「力」は、コンテンツが結び付けられているナレッジグラフにおいて、要素の階層に属するノードに対応するものである。関連コンテンツ検索部306は、当該コンテンツ(コンテンツ1521)と関連する関連コンテンツとして次の2種類のコンテンツを取得する。なお、関連コンテンツ検索部306は、これら2種類のそれぞれについて、0個以上の任意の数の関連コンテンツを検索結果として出力する。
【0133】
第1の種類は、元のコンテンツ(コンテンツ1521)が持つキーワードのうちの題材である語と同じ語を題材である語として持ち、且つ要素(学習要素)である語を持たない、「題材となるコンテンツ」(
図22に示す例では、コンテンツ1531)である。つまり、元のコンテンツ(コンテンツ1521)と共通の題材を有する「題材となるコンテンツ」である。関連コンテンツ検索部306は、この第1の種類のコンテンツを関連コンテンツとして検索することにより、ユーザーが、元のコンテンツ(コンテンツ1521)によって学んでいる要素(学習要素)を実世界と絡めながら学ぶことができるようにする。
【0134】
第2の種類は、元のコンテンツ(コンテンツ1521)がキーワードとして持つ要素(学習要素)である語と同じ語を要素(学習要素)である語として持ち、且つ元のコンテンツ(コンテンツ1521)がキーワードとして持つ題材である語とは異なる語を題材である語として持つ、「題材を例に要素(学習要素)を学べるコンテンツ」(
図22に示す例では、コンテンツ1532)である。つまり、元のコンテンツ(コンテンツ1532)と同じ要素(学習要素)を、元のコンテンツ(コンテンツ1532)とは異なる題材を例として学べるコンテンツである。関連コンテンツ検索部306は、この第2の種類のコンテンツを関連コンテンツとして検索することにより、ユーザーが今学んでいる要素(学習要素)を、別の題材を例に学ぶことができる。
【0135】
関連コンテンツ検索部306は、前述の「(B)当該「元のコンテンツ識別情報」に関連付けられる前記キーワードリスト内の前記キーワードであって且つ前記ナレッジ情報内において特定のテーマコードに関連付けられた前記「要素となる語」と、共通の前記「要素となる語」を前記キーワードリスト内に有する、当該「元のコンテンツ識別情報」とは別の関連コンテンツのコンテンツ識別情報を、関連コンテンツ識別情報として取得」する処理を、検索の際の「元のコンテンツ識別情報」が「題材を例に要素を理解できるコンテンツ」のコンテンツ識別情報であって、且つ当該関連コンテンツ識別情報が「題材を例に要素を理解できるコンテンツ」のコンテンツ識別情報である場合に限定して行うようにしてよい。つまり、コンテンツ1521を元として、関連コンテンツであるコンテンツ1532を検索結果として出力するのは、コンテンツ1521とコンテンツ1532の両方が「題材を例に要素を理解できるコンテンツ」であるからである。
【0136】
次に、関連コンテンツ検索装置30による処理の手順について、フローチャート(
図23および
図24)を参照しながら説明する。
【0137】
図23は、関連コンテンツ検索装置30のコンテンツ連携処理部304が、ナレッジグラフにコンテンツを連携させる処理の手順を示すフローチャートである。以下、このフローチャートに沿って処理手順を説明する。
【0138】
ステップS101において、コンテンツデータ取得部303は、コンテンツデータを取得する。ここでコンテンツデータ取得部303が取得するコンテンツデータは、例えば、ナレッジグラフに連携させるすべてのコンテンツにそれぞれ対応するコンテンツデータであってよい。コンテンツデータ取得部303は、取得したコンテンツデータを、コンテンツ連携処理部304に渡す。
【0139】
次にステップS102において、ナレッジ情報取得部301は、ナレッジグラフ(ナレッジ情報)のデータを取得する。このナレッジグラフは、例えば、既に説明したナレッジ情報生成装置20(
図3)によって生成されたものであってよい。ナレッジ情報取得部301は、取得したナレッジグラフを、コンテンツ連携処理部304に渡す。
【0140】
次にステップS103において、コンテンツ連携処理部304は、ステップS101において渡されたコンテンツについての繰り返し処理を開始する。つまり、コンテンツ連携処理部304は、ステップS104からS108までに含まれる各ステップの処理を、各々のコンテンツに関して行う。
【0141】
ステップS104において、コンテンツ連携処理部304は、現在処理対象であるコンテンツのコンテンツデータが持つキーワード群(
図16のキーワードリスト1154)に対して、最も一致する単語数の多いテーマコード(学習指導要領コード)を特定する。言い換えれば、コンテンツ連携処理部304は、現在処理対象であるコンテンツが最も一致するクラスター(テーマコード(学習指導要領コード))を特定する。そして、コンテンツ連携処理部304は、このクラスター(テーマコード(学習指導要領コード))のナレッジグラフを、以下のステップS105、S106、S107、S108における処理対象とする。つまり、ここで特定されたテーマコード(学習指導要領コード)のナレッジグラフが、現在処理対象であるコンテンツを結び付ける先である。
【0142】
ステップS105において、コンテンツ連携処理部304は、当該テーマコード(学習指導要領コード)のナレッジグラフが持つ要素となる名詞(学習要素となる名詞)内に、現在処理対象のコンテンツが持つキーワードの中のいずれかと一致する語があるか否かを判定する。ある場合(ステップS105:YES)には、ステップS106に進む。ない場合(ステップS105:NO)には、ステップS108に進む。
【0143】
なお、上記の「ステップS105:YES」は、
図19において説明した分類<11>または分類<10>のいずれか一方である場合に相当する。また、「ステップS105:NO」は、
図19において説明した分類<01>である場合に相当する。何故なら、前述の通り、
図19に示す分類<00>はあり得ない(そもそも
図23のフローチャートではそのような場合の処理を行わない)ためである。
【0144】
ステップS106に進んだ場合、同ステップにおいて、コンテンツ連携処理部304は、当該テーマコード(学習指導要領コード)のナレッジグラフが持つ題材となる名詞内に、現在処理対象のコンテンツが持つキーワードの中のいずれかと一致する語があるか否かを判定する。ある場合(ステップS106:YES)には、ステップS107に進む。ない場合(ステップS106:NO)には、ステップS104から始まる当該コンテンツに関する処理を終了して(この場合には、当該コンテンツは、ナレッジグラフには結び付けられない)、次のコンテンツ(ある場合)の処理に移る。
【0145】
なお、上記の「ステップS106:YES」は、
図19において説明した分類<11>の場合に相当する。また、「ステップS106:NO」は、
図19において説明した分類<10>の場合に相当する。
【0146】
ステップS107に進んだ場合、同ステップにおいて、コンテンツ連携処理部304は、現在処理対象であるコンテンツを、「題材を例に要素(学習要素)を学べるコンテンツ」としてナレッジグラフに結び付ける。このとき、コンテンツ連携処理部304は、ナレッジグラフ内の、該当する題材(ステップS106の判定の処理において「一致する語」であった題材)に、当該コンテンツを結び付ける。例えば
図20において示したコンテンツ1401、1402、1403、および1404は、「題材を例に要素(学習要素)を学べるコンテンツ」として当該題材のノードに結び付けられたコンテンツである。ステップS107の処理が終了すると、ステップS104から始まる当該コンテンツに関する処理を終了して、次のコンテンツ(ある場合)の処理に移る。
【0147】
ステップS108に進んだ場合、同ステップにおいて、コンテンツ連携処理部304は、現在処理対象であるコンテンツを、「題材となるコンテンツ」としてナレッジグラフに結び付ける。このとき、コンテンツ連携処理部304は、ナレッジグラフ内の、該当する題材(コンテンツが持つキーワードと、当該テーマコード(学習指導要領コード)のナレッジグラフが持つ題材となる語との間で一致する題材)に、当該コンテンツを結び付ける。例えば
図20において示したコンテンツ1411、1412、1213、および1414は、「題材となるコンテンツ」として当該題材のノードに結び付けられたコンテンツである。ステップS108の処理が終了すると、ステップS104から始まる当該コンテンツに関する処理を終了して、次のコンテンツ(ある場合)の処理に移る。
【0148】
すべてのコンテンツについてのステップS104からS108までの処理が完了すると、この繰り返し処理を抜け出し、ステップS109に移る。
【0149】
ステップS109において、コンテンツ連携処理部304は、ナレッジグラフに結び付けられたコンテンツ情報を出力する。つまり、コンテンツ連携処理部304は、コンテンツが結び付けられた状態のナレッジグラフを出力する。コンテンツ連携処理部304が出力するナレッジグラフは、関連コンテンツ検索部306に渡される。
【0150】
図24は、関連コンテンツ検索装置30の全体的な処理の手順を示すフローチャートである。つまり、このフローチャートの処理では、コンテンツ連携処理部304がナレッジグラフにコンテンツを連携させる処理を行うことを前提として、関連コンテンツ検索部306が関連コンテンツを検索する処理等の手順を示す。以下、このフローチャートに沿って説明する。
【0151】
ステップS201において、関連コンテンツ検索装置30は、コンテンツ連携済みであるか否か、即ち、コンテンツ連携処理部304が既にコンテンツをナレッジグラフに結び付ける処理を完了しているか否かを判定する。コンテンツ連携済みである場合(ステップS201:YES)には、ステップS203に飛ぶ。またコンテンツ連携が完了していない場合(ステップS201:NO)には、コンテンツ連携処理を行うためにステップS202に進む。
【0152】
ステップS202に進んだ場合、同ステップにおいて、関連コンテンツ検索装置30は、コンテンツ連携処理を行う。コンテンツ連携処理の手順については、
図23を参照しながら既に説明した通りである。本ステップの終了後には、ステップS203に進む。
【0153】
ステップS203において、コンテンツID取得部305は、コンテンツIDを取得する。このコンテンツIDは、例えばユーザーによって、文字列として入力されたり、グラフィカルユーザーインターフェースを介して選択されたりするものであってよい。コンテンツID取得部305が取得したコンテンツIDは、関連コンテンツを検索する元となるコンテンツを識別する情報である。コンテンツID取得部305は、取得したコンテンツIDを、関連コンテンツ検索部306に渡す。
【0154】
ステップS204において、関連コンテンツ検索部306は、ステップS203において取得されたID(元のコンテンツのID)が「題材となるコンテンツ」のIDであるか否かを判定する。具体的には、関連コンテンツ検索部306は、すべてのテーマコード(学習指導要領コード)のナレッジグラフを検索することによって、当該コンテンツIDのコンテンツが、「題材となるコンテンツ」としてナレッジグラフに結び付けられているか、「題材を例に学習要素を学べるコンテンツ」としてナレッジグラフに結び付けられているかを判定する。この2種類の結び付きについては、
図20等を参照しながら既に説明した通りである。
【0155】
元のコンテンツが「題材となるコンテンツ」のIDである場合(ステップS204:YES)には、次にステップS205に進む。元のコンテンツが「題材となるコンテンツ」のIDではなく、「題材を例に要素(学習要素)を学べるコンテンツ」のIDである場合(ステップS204:NO)には、次にステップS206に進む。
【0156】
ステップS205に進んだ場合、同ステップにおいて、関連コンテンツ検索部306は、コンテンツ連携済みのナレッジグラフを検索することによって、
1)元のコンテンツが持つ題材と同じ題材に関するすべての「題材となるコンテンツ」のコンテンツIDと、
2)元のコンテンツが持つ題材に関するすべての「題材を例に要素(学習要素)を学べるコンテンツ」のコンテンツIDと、
を取得する。即ち、関連コンテンツ検索部306は、
図21において例として示したコンテンツ1501を基に、コンテンツ1511と、コンテンツ1512とを取得する。本ステップの処理の終了後には、ステップS207に移る。
【0157】
ステップS206に進んだ場合、同ステップにおいて、関連コンテンツ検索部306は、コンテンツ連携済みのナレッジグラフを検索することによって、
1)元のコンテンツが持つ題材と同じ題材に関するすべての「題材となるコンテンツ」のコンテンツIDと、
2)元のコンテンツが持つ要素(学習要素)と同じ要素(学習要素)を有し、且つ元のコンテンツが持つ題材と異なる題材を有する、すべての「題材を例に要素(学習要素)を学べるコンテンツ」のコンテンツIDと、
を取得する。即ち、関連コンテンツ検索部306は、
図22において例として示したコンテンツ1521を基に、コンテンツ1531と、コンテンツ1532とを取得する。本ステップの処理の終了後には、ステップS207に移る。
【0158】
ステップS207において、関連コンテンツ検索部306は、ステップS205またはS206のいずれかにおいて取得したすべての関連コンテンツのコンテンツIDを出力する。関連コンテンツ検索部306は、これらの関連コンテンツのコンテンツIDを、例えば提示部307に渡す。これにより、関連コンテンツ検索部306は、ユーザーが最初に選択した「元のコンテンツ」に関連するすべての関連コンテンツのコンテンツIDを外部に渡すことができる。提示部307がこれらの関連コンテンツのコンテンツIDを受け取った場合には、提示部307は、ユーザーが最初に選択した(例えば、視聴した)コンテンツに関連する関連コンテンツを、ユーザーに対して提示(例えば、視聴させたり、レコメンドしたり)することができる。元のコンテンツと関連コンテンツとの関係は、
図21や
図22を参照しながら説明した通りである。
【0159】
つまり、上で説明した手順によって、コンテンツ連携処理済みのナレッジグラフを参照しながら関連コンテンツ検索部306が関連コンテンツを検索することにより、元のコンテンツに関連する題材についてのコンテンツや、元のコンテンツが持つ要素と同じ要素で且つ異なる題材によって説明等がなされているコンテンツなどを、得ることができる。学習コンテンツの分野に適用する場合には、関連コンテンツ検索部306は、元のコンテンツに関連する題材についてのコンテンツや、元のコンテンツが持つ要素(学習)と同じ要素(学習)で且つ異なる題材によって説明等がなされているコンテンツなどを、得ることができる。つまり、ユーザーは、学習コンテンツのみに依らず、学習コンテンツ以外のコンテンツによっても学習要素の理解を深めることができる。つまり、関連コンテンツ検索装置30は、教育用には制作されていないコンテンツ(例えば、ニュースやスポーツや娯楽等)を、教育コンテンツに結びつけてユーザーに対して提示することが可能となる。
【0160】
次に、本実施形態のいくつかの変形例について説明する。なお、組み合わせることが可能な限りにおいて、複数の変形例を組み合わせて実施してもよい。
【0161】
[変形例1 ナレッジ情報]
上記の実施形態では、ナレッジ情報として、グラフ構造を有するナレッジグラフを用いた。上記実施形態と同等の機能を実現するために、グラフ構造以外のナレッジ情報を用いてもよい。その場合にも、ナレッジ情報は、テーマコード(学習指導要領コード)と、そのテーマコード(学習指導要領コード)についての要素(学習要素)を表す語(名詞等)および題材を表す語(名詞等)と、の関係を表す情報である。既存技術においてグラフ構造以外の方法で関係を表すデータ表現の形態は、多数存在する。また、本変形例の場合にも、コンテンツ連携処理部304は、コンテンツをナレッジ情報に結び付ける処理を行う。この場合にも、コンテンツ連携処理部304は、特定のテーマコード(学習指導要領コード)に対応するナレッジにおける「題材を表す語」に、コンテンツを結び付けるようにしてよい。
【0162】
[変形例2 適用先の情報体系]
上記の実施形態の説明では、本実施形態の方法を適用する対象は、学習指導要領であった。変形例として、本実施形態の手法を学習指導要領以外の情報体系に適用してもよい。
【0163】
学習指導要領以外の例の一つは、図書に関する「日本十進分類法」(NDC,Nippon Decimal Classification)である。図書は、日本十進分類法によって分類される。日本十進分類法に適用する場合には、ナレッジ利用システム1は、十進3桁の分類コード(テーマコードに相当、ただし4桁以上のコードも存在する。)に対応する概要文やタイトル等を基に、ナレッジ情報を生成する。また、ナレッジ利用システム1は、生成されたナレッジ情報を利用して、あるコンテンツに関連する関連コンテンツを検索し、ユーザーに提示することができる。この場合のコンテンツは、図書等である。また、図書等に関する概要文(説明文)のテキストが、コンテンツデータ内に含まれるようにする。
【0164】
学習指導要領以外の別の例の一つは、特許に関する国際特許分類(IPC,International Patent Classification)である。特許は、国際特許分類によって分類される。ただし、1件の特許が複数の国際特許分類コードに関連付けられていてもよい。この場合には、ナレッジ利用システム1は、国際特許分類コードに対応する概要文やタイトル等を基に、ナレッジ情報を生成する。また、ナレッジ利用システム1は、生成されたナレッジ情報を利用して、あるコンテンツに関連する関連コンテンツを検索し、ユーザーに提示することができる。この場合のコンテンツは、特許のドキュメント(例えば、特許公報あるいは公開特許公報)等である。また、個々の特許に関する概要文(例えば、要約書)のテキストが、コンテンツデータ内に含まれるようにする。
【0165】
[コンピューターとプログラムによる実現]
図25は、上記実施形態(変形例を含む)においてナレッジ利用システム1の要素であるナレッジ情報生成装置20や関連コンテンツ検索装置30の内部構成の一例を示すブロック図である。ナレッジ情報生成装置20や関連コンテンツ検索装置30のそれぞれは、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置901と、RAM902と、入出力ポート903と、入出力デバイス904や905等と、バス906と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置901は、RAM902等から読み込んだプログラムに含まれる命令を実行する。中央処理装置901は、各命令にしたがって、RAM902にデータを書き込んだり、RAM902からデータを読み出したり、算術演算や論理演算を行ったりする。RAM902は、データやプログラムを記憶する。RAM902に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、RAMは、「ランダムアクセスメモリー」の略である。入出力ポート903は、中央処理装置901が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス904や905は、入出力ポート903を介して中央処理装置901との間でデータをやりとりする。バス906は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置901は、バス906を介してRAM902のデータを読んだり書いたりする。また、例えば、中央処理装置901は、バス906を介して入出力ポート903にアクセスする。
【0166】
なお、上述した実施形態におけるナレッジ情報生成装置20や関連コンテンツ検索装置30の少なくとも一部の機能をコンピューターとプログラムとで実現することができる。その場合、機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の(non-transitory)コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【0167】
以上、図面を参照しながら実施形態(変形例を含む)を説明した。発明を実施するための具体的な構成はこの実施形態(変形例を含む)に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【0168】
以上の実施形態(変形例を含む)によると、ナレッジ情報生成装置20は、コンテンツデータやテーマデータを基に、要素となる語や題材となる語を自動的に抽出し、且つそれらを関連付け、ナレッジ情報を生成することができる。ナレッジ情報は、例えば関連コンテンツを検索する際に参照され得る情報であり、テーマごとの、要素と題材との関係を表している。また、ナレッジ情報は形式化されており、コンピューター等によって利用可能な形態をとっている。また、関連コンテンツ検索装置30は、コンテンツを、ナレッジ情報と連携させる処理を行う。また、関連コンテンツ検索装置30は、コンテンツが連携している状態のナレッジ情報を用いて、与えられる一つのコンテンツ(コンテンツIDによって識別される)に関連する関連コンテンツを検索することができる。また、関連コンテンツ検索装置30は、検索結果として得られた関連コンテンツの情報をユーザーに提示したり、関連コンテンツそのものをユーザーに提示したりすることができる。
【0169】
例として教育分野についていうと、本実施形態により、教育用に制作されたコンテンツと、教育以外の目的(例えば、報道、娯楽等)で制作されたコンテンツとを、関連コンテンツとして結び付けてユーザーに提示することが可能となる。
【産業上の利用可能性】
【0170】
本発明は、例えば、コンテンツに関係する知識の管理と利用のために用いることができる。但し、本発明の利用範囲はここに例示したものには限られない。
【符号の説明】
【0171】
1 ナレッジ利用システム
20 ナレッジ情報生成装置
30 関連コンテンツ検索装置
201 コンテンツデータ取得部
202 テーマデータ取得部
203 要素および題材抽出部
204 構造化処理部
301 ナレッジ情報取得部
302 テーマデータ取得部
303 コンテンツデータ取得部
304 コンテンツ連携処理部
305 コンテンツID取得部
306 関連コンテンツ検索部
307 提示部
901 中央処理装置
902 RAM
903 入出力ポート
904,905 入出力デバイス
906 バス
1100 コンテンツデータ(学習コンテンツデータ)
1101 テキスト(コンテンツテキスト情報)
1150 コンテンツデータ(学習コンテンツデータ)
1200 テーマデータ(学習指導要領データ)
1202 テーマ項目テキスト(テーマテキスト情報)