特許第6499477号(P6499477)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許6499477オントロジー生成装置、メタデータ出力装置、コンテンツ取得装置、オントロジー生成方法及びオントロジー生成プログラム
<>
  • 特許6499477-オントロジー生成装置、メタデータ出力装置、コンテンツ取得装置、オントロジー生成方法及びオントロジー生成プログラム 図000002
  • 特許6499477-オントロジー生成装置、メタデータ出力装置、コンテンツ取得装置、オントロジー生成方法及びオントロジー生成プログラム 図000003
  • 特許6499477-オントロジー生成装置、メタデータ出力装置、コンテンツ取得装置、オントロジー生成方法及びオントロジー生成プログラム 図000004
  • 特許6499477-オントロジー生成装置、メタデータ出力装置、コンテンツ取得装置、オントロジー生成方法及びオントロジー生成プログラム 図000005
  • 特許6499477-オントロジー生成装置、メタデータ出力装置、コンテンツ取得装置、オントロジー生成方法及びオントロジー生成プログラム 図000006
  • 特許6499477-オントロジー生成装置、メタデータ出力装置、コンテンツ取得装置、オントロジー生成方法及びオントロジー生成プログラム 図000007
  • 特許6499477-オントロジー生成装置、メタデータ出力装置、コンテンツ取得装置、オントロジー生成方法及びオントロジー生成プログラム 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6499477
(24)【登録日】2019年3月22日
(45)【発行日】2019年4月10日
(54)【発明の名称】オントロジー生成装置、メタデータ出力装置、コンテンツ取得装置、オントロジー生成方法及びオントロジー生成プログラム
(51)【国際特許分類】
   G06F 16/00 20190101AFI20190401BHJP
   G06F 17/27 20060101ALI20190401BHJP
【FI】
   G06F17/30 320D
   G06F17/30 210A
   G06F17/30 419A
   G06F17/27 695
【請求項の数】9
【全頁数】13
(21)【出願番号】特願2015-38206(P2015-38206)
(22)【出願日】2015年2月27日
(65)【公開番号】特開2016-162054(P2016-162054A)
(43)【公開日】2016年9月5日
【審査請求日】2018年1月4日
【権利譲渡・実施許諾】特許権者において、実施許諾の用意がある。
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】浦川 真
(72)【発明者】
【氏名】宮崎 勝
【審査官】 齊藤 貴孝
(56)【参考文献】
【文献】 特許第5576003(JP,B2)
【文献】 特開2008−102845(JP,A)
【文献】 特開2012−194676(JP,A)
【文献】 特開2010−146430(JP,A)
【文献】 特開平11−096177(JP,A)
【文献】 特開2009−140056(JP,A)
【文献】 韓国公開特許第10−2014−0052328(KR,A)
【文献】 小林 暁雄、外1名,日本語版ウィキペディアのカテゴリー階層に着目した日本語WordNet上位下位意味体系の拡張手法,電子情報通信学会論文誌,日本,一般社団法人電子情報通信学会,2012年 6月 1日,第J95−D巻,第6号,p.1356−1368
【文献】 柴木 優美、外2名,カテゴリ名と記事名の意味属性分類に基づくWikipediaからの上位下位関係オントロジーの構築,自然言語処理,日本,言語処理学会,2012年12月 4日,第19巻,第4号,p.229−279
【文献】 中山 浩太郎、外6名,Wikipediaマイニング,情報処理学会論文誌 論文誌トランザクション 平成21年度(2),日本,社団法人情報処理学会,2010年 4月27日,第2巻,第4号,p.49−60
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
G06F 17/27
(57)【特許請求の範囲】
【請求項1】
指定された分野における複数の文書情報のそれぞれから、見出し語の階層情報を抽出する見出し抽出部と、
前記見出し語に紐付く単語を前記文書情報のそれぞれから抽出する単語抽出部と、
前記単語の類似度に基づいて、互いに異なる前記見出し語を1つに統合し、当該統合された見出し語の階層情報を含む前記分野の知識構造データを生成する構造化部と、を備えるオントロジー生成装置。
【請求項2】
前記構造化部は、前記見出し語と前記単語とを関連付けた知識構造データを生成する請求項1に記載のオントロジー生成装置。
【請求項3】
前記構造化部は、前記見出し語と前記単語との関連度を含む前記知識構造データを生成する請求項2に記載のオントロジー生成装置。
【請求項4】
コンテンツに関するテキストデータと、請求項1から請求項3のいずれかに記載のオントロジー生成装置により生成された前記知識構造データに含まれる単語とのマッチングにより、当該単語に関連付けられた前記見出し語の階層情報を前記知識構造データから抽出し、前記コンテンツのメタデータとして出力する出力部を備えるメタデータ出力装置。
【請求項5】
辞書データに基づいて前記単語の同類語を取得する辞書取得部を備え、
前記出力部は、前記テキストデータと、前記単語又は前記同類語とのマッチングによって、当該単語に関連付けられた前記見出し語の階層情報を抽出する請求項4に記載のメタデータ出力装置。
【請求項6】
請求項4又は請求項5に記載のメタデータ出力装置により出力された前記メタデータと同一のメタデータが付与されたコンテンツを、所定のデータベースから取得する第1コンテンツ取得部を備えるコンテンツ取得装置。
【請求項7】
前記メタデータの階層情報に基づいて、当該階層情報の上位が共通する別の階層情報を前記知識構造データから抽出し、当該別の階層情報に相当するメタデータが付与されたコンテンツを、前記所定のデータベースから取得する第2コンテンツ取得部を備える請求項6に記載のコンテンツ取得装置。
【請求項8】
コンピュータの制御部が、
指定された分野における複数の文書情報のそれぞれから、見出し語の階層情報を抽出する見出し抽出ステップと、
前記見出し語に紐付く単語を前記文書情報のそれぞれから抽出する単語抽出ステップと、
前記単語の類似度に基づいて、互いに異なる前記見出し語を1つに統合し、当該統合された見出し語の階層情報を含む前記分野の知識構造データを生成する構造化ステップと、を実行するオントロジー生成方法。
【請求項9】
コンピュータの制御部に、
指定された分野における複数の文書情報のそれぞれから、見出し語の階層情報を抽出する見出し抽出ステップと、
前記見出し語に紐付く単語を前記文書情報のそれぞれから抽出する単語抽出ステップと、
前記単語の類似度に基づいて、互いに異なる前記見出し語を1つに統合し、当該統合された見出し語の階層情報を含む前記分野の知識構造データを生成する構造化ステップと、を実行させるためのオントロジー生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オントロジーの生成装置、方法及びプログラムに関する。
【背景技術】
【0002】
映像配信サービスの普及に伴い映像コンテンツの重要性が増し、様々な分野で映像コンテンツの利活用が進むと共に、コンテンツ量も増加している。
このため、コンテンツが何であるかを明確にするメタデータがコンテンツに付与されることが望ましい。コンテンツホルダは、例えば、「このコンテンツは、生物Aの産卵の映像である。」といったメタデータを付与しておくことで、映像コンテンツの内容を利用者に文章で提示できる。また、例えば「生物A」と「産卵」とを分けて定義することで、コンテンツホルダは、「生物A」に関する他のコンテンツだけでなく、「産卵」に関する複数の生物映像を関連付けて提示できる。
特許文献1では、映像コンテンツに付与されたタイトルを検索キーワードとして、特定のコミュニティサイトを検索し、得られたWebページから情報を抽出し、メタデータとして映像コンテンツに付与する方法が提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2008−4080号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、メタデータの入力者は、利用されるシーン又はサービスを想像してメタデータを入力する必要がある。例えば、「生物A」とだけ入力する場合もあれば、「生物Aの産卵」と入力する場合もある。また、メタデータは、コンテンツの内容が同様であっても入力者によって定義が異なる。例えば、「生物A」の「産卵」というメタデータを入力する場合もあれば、「生物A」の「生殖」と入力する場合もある。
特許文献1の方法では、映像コンテンツについて記載されたコミュニティサイトのWebページを1つ見つけ出し、このWebページから情報を抽出する。付与されるメタデータの構造は、単一のWebページに依存するため、映像コンテンツが異なれば付与されるメタデータの定義も異なる可能性がある。
【0005】
本発明は、複数のコンテンツで共通して利用可能なメタデータの体系を定義した知識構造データを生成できるオントロジー生成装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係るオントロジー生成装置は、指定された分野における複数の文書情報から、見出し語の階層情報を抽出する見出し抽出部と、前記見出し語に紐付く単語を前記文書情報から抽出する単語抽出部と、前記単語の類似度に基づいて、前記見出し語を統合し、当該統合された見出し語の階層情報を含む前記分野の知識構造データを生成する構造化部と、を備える。
【0007】
前記構造化部は、前記見出し語と前記単語とを関連付けた知識構造データを生成してもよい。
【0008】
前記構造化部は、前記見出し語と前記単語との関連度を含む前記知識構造データを生成してもよい。
【0009】
本発明に係るメタデータ出力装置は、コンテンツに関するテキストデータと、前記オントロジー生成装置により生成された前記知識構造データに含まれる単語とのマッチングにより、当該単語に関連付けられた前記見出し語の階層情報を前記知識構造データから抽出し、前記コンテンツのメタデータとして出力する出力部を備える。
【0010】
前記メタデータ出力装置は、辞書データに基づいて前記単語の同類語を取得する辞書取得部を備え、前記出力部は、前記テキストデータと、前記単語又は前記同類語とのマッチングによって、当該単語に関連付けられた前記見出し語の階層情報を抽出してもよい。
【0011】
本発明に係るコンテンツ取得装置は、前記メタデータ出力装置により出力された前記メタデータと同一のメタデータが付与されたコンテンツを、所定のデータベースから取得する第1コンテンツ取得部を備える。
【0012】
前記コンテンツ取得装置は、前記メタデータの階層情報に基づいて、当該階層情報の上位が共通する別の階層情報を前記知識構造データから抽出し、当該別の階層情報に相当するメタデータが付与されたコンテンツを、前記所定のデータベースから取得する第2コンテンツ取得部を備えてもよい。
【0013】
本発明に係るオントロジー生成方法は、コンピュータの制御部が、指定された分野における複数の文書情報から、見出し語の階層情報を抽出する見出し抽出ステップと、前記見出し語に紐付く単語を前記文書情報から抽出する単語抽出ステップと、前記単語の類似度に基づいて、前記見出し語を統合し、当該統合された見出し語の階層情報を含む前記分野の知識構造データを生成する構造化ステップと、を実行する。
【0014】
本発明に係るオントロジー生成プログラムは、コンピュータの制御部に、指定された分野における複数の文書情報から、見出し語の階層情報を抽出する見出し抽出ステップと、前記見出し語に紐付く単語を前記文書情報から抽出する単語抽出ステップと、前記単語の類似度に基づいて、前記見出し語を統合し、当該統合された見出し語の階層情報を含む前記分野の知識構造データを生成する構造化ステップと、を実行させる。
【発明の効果】
【0015】
本発明によれば、複数のコンテンツで共通して利用可能なメタデータの体系を定義した知識構造データを生成できる。
【図面の簡単な説明】
【0016】
図1】第1実施形態に係る管理サーバの機能構成を示す図である。
図2】第1実施形態に係るオントロジーの生成過程の一例を示す図である。
図3】第1実施形態に係るオントロジーの一例を示す図である。
図4】第1実施形態に係るメタデータの出力方法の一例を示す図である。
図5】第1実施形態に係るメタデータの付与処理の一例を示すフローチャートである。
図6】第2実施形態に係るコンテンツサーバの機能構成を示す図である。
図7】第2実施形態に係る関連コンテンツの取得過程の一例を示す図である。
【発明を実施するための形態】
【0017】
[第1実施形態]
以下、本発明の第1実施形態について説明する。
本実施形態に係る管理サーバ1は、コンテンツホルダ又はサービスプロバイダ等がネットワークを介して又は直接アクセスする情報処理装置(コンピュータ)である。管理サーバ1は、コミュニティサイトの情報から知識構造データとしてのオントロジーを構築するオントロジー生成装置、及び映像又はWebページ等のコンテンツに対してオントロジーに基づくメタデータを付与するメタデータ出力装置として機能する。
【0018】
図1は、本実施形態に係る管理サーバ1の機能構成を示す図である。
管理サーバ1は、対象指定部11と、見出し抽出部12と、単語抽出部13と、構造化部14と、辞書取得部15と、コンテンツ指定部16と、出力部17とを備える。
【0019】
対象指定部11は、ある分野(例えば、「生物」)における知識構造を抽出する対象となる文書情報を取得する。文書情報は、例えば、Wikipedia(登録商標)等のコミュニティサイトにおいて個々の見出し語を解説するWebページである。対象指定部11は、WebページのURLの指定入力を受け付けてページデータを取得、あるいは、利用者からCSV等のファイルで文書情報を直接受け付ける。抽出対象として、「生物」に属する複数の抽出対象が指定されることにより、対象指定部11は、「生物」全体としての特徴を得るための文書情報を取得できる。なお、単一のWebページでも、テキストをそのまま知識構造として使用できる場合は、抽出対象は単一であってもよい。
【0020】
見出し抽出部12は、対象指定部11により取得された複数の文書情報それぞれにおける見出し語の構造を解析し、これらの文書情報から、見出し語及びその階層情報を抽出する。
【0021】
単語抽出部13は、見出し語に紐付く単語を文書情報から抽出する。
単語抽出部13は、例えば、文書情報を形態素解析し、得られた単語のうち、使用頻度等の所定の指標(例えば、TF−IDF)に基づく重要度の高い単語を、各見出し内で使用されている特徴的な単語として抽出してよい。
【0022】
構造化部14は、単語の類似度に基づいて、見出し語を統合し、この統合された見出し語の階層情報を含むオントロジーを、分野毎に生成する。
例えば、生物の分野において、各文書情報は、「特徴」、「生息環境」、「分布」、「生活史」、「生殖」等、統一されていない見出し語で説明されているが、構造化部14は、類似度の高い見出し語を統合することにより、共通化及び体系化されたオントロジーを生成する。
【0023】
オントロジーでは、見出し語と単語とが関連付けられている。さらに、オントロジーには、複数の見出し語に対する同一単語の出現確率等に基づく、見出し語と単語との関連度が含まれる。
【0024】
図2は、本実施形態に係るオントロジーの生成過程の一例を示す図である。
まず、対象指定部11は、URLの指定に応じて、生物に関する文書情報として、「ミジンコ」、「ウニ」、「トンボ」等のWebページのテキストデータを取得している。
【0025】
見出し抽出部12は、取得したテキストデータから、見出し語の階層情報として、例えば、「形態」の下位に「内部」及び「外部」を、「生態」の下位に「食性」、「生殖」及び「分布」を、それぞれ紐付けた構造データを抽出する。
【0026】
単語抽出部13は、各見出し語に対応したテキストデータの範囲から、この見出し語を特徴付ける単語を抽出する。例えば、見出し語「食性」に対して「食べる」及び「餌」等の単語が抽出される。
【0027】
構造化部14は、これらの見出し内の単語の類似度から異なる見出し語を1つに統合し、共通化された見出し語の階層情報を生成する。例えば、「内部形態」及び「内部構造」の2つの見出し語が抽出されている場合、これらに紐付く単語は高い確率で一致又は類似するため、2つの見出し語が1つに統合される。
【0028】
辞書取得部15は、辞書データに基づいて、オントロジーに含まれる単語の同類語を取得する。
例えば、辞書取得部15は、辞書データを用いて、オントロジーの単語に対して概念構造を付加することにより、同様の概念構造を持つ同類語を取得する。
【0029】
図3は、本実施形態に係る概念構造を付加したオントロジーの一例を示す図である。
このオントロジーは、「生物」を説明する際に必要となる構造や必要な単語を保持している。例えば、「外部」という概念は、上位概念に「形態」を持ち、インスタンスとして、「縮む」という動詞及び「腕」という名詞を持つという概念構造が定義できる。また、これらの集合及び辞書データから、「形態−外部」概念は、「体」に関する名詞を持つと定義されるため、「腕」と同じ概念構造を持つ「吻」又は「足」等の関連名詞が出現しても、「形態−外部」として分類できる。
なお、オントロジーは、例えば、OWL等の記述言語を用いて記述される。
【0030】
コンテンツ指定部16は、メタデータを付与したいコンテンツに関するテキストデータを取得する。
コンテンツは、例えば、コンテンツホルダの映像コンテンツであり、コンテンツ指定部16は、指定されたコンテンツのテキスト情報を抽出し、又はメタデータを付与したいテキスト自体の入力を受け付ける。
【0031】
出力部17は、コンテンツに関するテキストデータを形態素に分解した上で、これらの形態素と、オントロジーに含まれる単語又は同類語とのマッチングを行う。このマッチングの結果により、コンテンツのテキストデータと類似度の高い単語に関連付けられた見出し語の階層情報をオントロジーから抽出し、コンテンツの内容を表すメタデータとして出力する。
このとき、出力部17は、マッチングした単語と見出し語との関連度に基づいて算出されるスコアが上位の見出し語の階層情報を抽出する。
【0032】
図4は、本実施形態に係るスコアに基づくメタデータの出力方法の一例を示す図である。
この例では、コンテンツに関するテキストデータから、「背中」、「育てる」、「卵」、「産む」といった単語が抽出されている。これらを、知識構造データとマッチングすることにより、メタデータ毎のスコアが算出される。
【0033】
例えば、「背中」とマッチングした見出し語の「内部」、「外部」、「食性」、「生殖」に対して、それぞれ関連度に応じたスコアが加算される。同様に、「育てる」、「卵」、「産む」とマッチングした見出し語に対しても、それぞれスコアが加算されていく。これらの合計スコアが最も高い見出し語「生殖」が選択され、コンテンツのメタデータとして階層情報「生態−生殖」が抽出される。
【0034】
図5は、本実施形態に係る管理サーバ1によるコンテンツへのメタデータの付与処理の一例を示すフローチャートである。
この例は、自社の映像コンテンツにメタデータを付与したいコンテンツホルダにおいて管理サーバ1を利用した際の処理例である。
コンテンツホルダは、映像コンテンツを管理する上で必要となるテキスト情報を蓄積している。このテキスト情報は、例えば、番組情報や字幕情報等である。コンテンツオペレータは、管理サーバ1により、コミュニティサイトからオントロジーを取得し、映像コンテンツへメタデータを付与する。
【0035】
ステップS1において、対象指定部11は、コンテンツオペレータから、抽出したいWebページのURLの指定を受け付ける。あるいは、対象指定部11は、CSV等のファイルを取り込むことで、知識構造を解析するためのテキストデータを取得する。例えば、コミュニティサイトの「ミジンコ」を説明するWebページのURLが指定されることで、「ミジンコ」に関するテキストデータを得る。同様に、「ウニ」及び「トンボ」といった、「ミジンコ」と同一カテゴリとされる生物(動物)のWebページが指定されることで、抽出データに他の生物のデータも追加される。
【0036】
ステップS2において、見出し抽出部12は、コミュニティサイトから取得された抽出データの見出し構造から、見出し語の階層情報を抽出する。
ステップS3において、単語抽出部13は、ステップS2で抽出された見出し内で使用されている単語群から、見出し語を特徴づける単語群を抽出する。
【0037】
ステップS4において、構造化部14は、ステップS2で抽出された見出し語の階層情報と、ステップS3で抽出された見出し内の特徴単語とに基づいて、知識構造データであるオントロジーを生成する。
なお、コンテンツオペレータは、見出し語の階層情報、見出し内の特徴単語、又は生成されたオントロジーを、手動により修正することも可能である。
【0038】
ステップS5において、コンテンツオペレータは、映像コンテンツの説明テキスト(番組情報、映像内容等)からオントロジーに基づくメタデータを付与するために、メタデータを付与したい映像コンテンツのURLを指定する。コンテンツ指定部16は、指定されたURLにより映像コンテンツに関するテキストデータを取得する。あるいは、コンテンツ指定部16は、CSV等のファイルを取り込むことで、テキストデータを取得してもよい。
【0039】
ステップS6において、出力部17は、ステップS5で取得されたテキストデータを、形態素単位に分割する。例えば、「モンシロチョウの幼虫は、卵の殻を食べる。」というテキストを、「モンシロチョウ」、「幼虫」、「卵」、「殻」、「食べる」という形態素に分解する。
【0040】
ステップS7において、出力部17は、ステップS6で得られた各々の単語が、オントロジーにおいて、どの分類で最も多く利用されているかを計算し、「モンシロチョウの幼虫は、卵の殻を食べる。」に対して、例えば、「生態」−「食性」というメタデータをオントロジーから抽出して出力する。
コンテンツオペレータは、出力された「生態」−「食性」というメタデータを取得し、自身のシステムで利用できる。
【0041】
また、指定されるコンテンツは、例えば、コミュニティサイトのWebページとすることもできる。ページ作成者は、Webページを指定することでメタデータを取得し、Webページ自身を再整理することが可能となる。例えば、「ミジンコ」に関するWebページにおいて、「特徴」という見出しで形態に関する記述があった場合に、ページ作成者は、「特徴」を「形態」という共通の見出し語に定義し直すことで、Webページ自身を共通構造に基づく内容に再整理できる。
【0042】
さらに、例えば、コンテンツオペレータは、学校教育用のコンテンツを制作する際の参考として、見出し語が階層化されたテキストを持つ教科書データから、目次構造や説明内容の特徴を抽出する際に管理サーバ1を利用できる。
コンテンツオペレータは、対象指定部11に対して教科書データが公開されたURLを複数指定し、コンテンツ指定部16に対して全指定することにより、構造化部14により生成された教科書のオントロジーを全て得ることができる。
ここで得られる知識構造は、例えば、中学1年生向けの理科の教科書では、「動物の生活」という目次の下位に「生物と細胞」、「動物の体」、「分類」といった目次と、これらの下位目次を特徴付ける単語である「細胞」、「分裂」、「卵生」といった特徴単語を定義したオントロジーとなる。これにより、コンテンツオペレータは、教育資料として必要となる目次や内容を把握することが可能となる。また、特定の教科書では説明されていない項目の洗い出しも可能となる。
【0043】
本実施形態によれば、管理サーバ1は、分野が共通する複数の文書情報から、見出し語の階層情報及び見出し内の特徴単語を抽出し、これらを類似度に基づいて統合することにより、知識構造データとしてのオントロジーを生成する。したがって、管理サーバ1は、複数のコンテンツで共通して利用可能なメタデータの体系を定義した知識構造データを生成できる。
【0044】
例えば、放送番組コンテンツであれば、関連する複数のWebページから生成される、「キャスト」、「放送年」、「番組関連書籍」といった、共通して利用できる見出し語による知識構造を基に、コンテンツのメタデータを付与することで、メタデータ定義を共通化することができる。また、放送番組コンテンツには「番組関連書籍」情報が記載されるという知識構造が抽出されるので、映像コンテンツにその記載がない場合に、本当に「番組関連書籍」がないのかといった記載内容の精査も可能となる。
【0045】
知識構造データには、見出し語に関連付けられた単語が含まれるので、見出し語の階層構造それぞれの意味的内容がより具体的に表される。この結果、任意のテキストデータとのマッチングが容易となり、コンテンツに対して適切なメタデータを容易に付与できる。
【0046】
また、知識構造データには、見出し語と特徴単語との関連度が含まれるので、この関連度に基づいてコンテンツと見出し語とのマッチングの度合いがより具体的に比較できる。この結果、任意のテキストデータとのマッチングが容易となり、コンテンツに対して適切なメタデータを容易に付与できる。
【0047】
さらに、管理サーバ1は、辞書データを用いて見出し内の単語の同類語を取得するので、コンテンツとのマッチングを概念構造に基づいて適切に行うことができる。
【0048】
このように、コンテンツホルダでは、コミュニティサイトを知識源として抽出したオントロジーを用いて、保有するコンテンツのテキスト情報に対して、構造化されたメタデータを自動的に付与することができる。これにより、コンテンツオペレータは、自身が保有するコンテンツにおいて、内容が重複しているコンテンツや不足している内容を把握することができる。また、サービスプロバイダは、Webページと映像コンテンツの補完連携といったサービス提供が可能となる。
【0049】
[第2実施形態]
以下、本発明の第2実施形態について説明する。
本実施形態に係るコンテンツサーバ2は、コンテンツホルダ又はサービスプロバイダ等においてコンテンツを管理する情報処理装置(コンピュータ)である。コンテンツサーバ2は、第1実施形態の管理サーバ1により付与されたメタデータに関連した新たなコンテンツを取得するコンテンツ取得装置として機能する。
【0050】
図6は、本実施形態に係るコンテンツサーバ2の機能構成を示す図である。
コンテンツサーバ2は、メタデータ取得部21と、第1コンテンツ取得部22と、第2コンテンツ取得部23とを備える。
【0051】
メタデータ取得部21は、管理サーバ1に対して自身のコンテンツ(例えば、Webページデータ)を提供し、オントロジーに基づくメタデータを取得する。
【0052】
第1コンテンツ取得部22は、取得したメタデータと同一のメタデータが付与されたコンテンツを、所定のデータベース(コンテンツホルダ)から取得する。
【0053】
第2コンテンツ取得部23は、メタデータの階層情報に基づいて、当該階層情報の上位が共通する別の階層情報をオントロジーから抽出し、この別の階層情報に相当するメタデータが付与されたコンテンツを、所定のデータベースから取得する。
【0054】
図7は、本実施形態に係る関連コンテンツの取得過程の一例を示す図である。
この例は、自身のWebページに映像コンテンツを付加したいサービスプロバイダにおける処理を示している。
サービスプロバイダは、自身のWebページに、ページの内容に関連した映像コンテンツを紐付けたい場合に、コンテンツホルダが付与したメタデータを利用することで、関連コンテンツを選択できる。
【0055】
例えば、コンテンツホルダに富士山の文化的背景を説明した映像コンテンツ、及び富士山の気候を説明した映像コンテンツがあった場合、これらのコンテンツに、「山」−「信仰」及び「山」−「地質」というメタデータが付与されているものとする。
【0056】
サービスプロバイダは、富士山の紹介サイトを制作する際、その文化的背景を説明したテキストエリア31を管理サーバ1に問い合わせ、「山」−「信仰」というメタデータを取得する。
【0057】
サービスプロバイダは、取得したメタデータにより、見出し語32を修正すると共に、コンテンツホルダが持つ「山」−「信仰」に関連したコンテンツを検索し、リンク33を張ることができる。このとき、検索したコンテンツに付随するテキスト34が付加されてもよい。
【0058】
さらに、サービスプロバイダは、「山」−「地質」に関する映像コンテンツがあることも、メタデータの概念構造を辿ることにより把握できる。したがって、サービスプロバイダは、自身のWebページに関連した映像コンテンツだけでなく、体系的に関連した映像コンテンツを、さらに検索して表示できる。すなわち、「地質」の見出し語35、映像のリンク36及び映像に付随するテキスト37が付加される。
なお、コンテンツを検索するためのクエリは、API又はSPARQL等でよいが、これらには限られない。
【0059】
本実施形態によれば、コンテンツサーバ2は、メタデータが共通するコンテンツをデータベースから取得することにより、オントロジーを利用して複数のコンテンツを連携させて情報提供することができる。
さらに、コンテンツサーバ2は、オントロジーに基づいてメタデータの上位階層が共通する関連コンテンツを取得するので、関連情報を含めた複数のコンテンツを効率的に収集して情報量を増やせる。
【0060】
このように、コンテンツサーバ2は、コミュニティサイトを知識源としたオントロジーに基づいてメタデータをコンテンツに付与することにより、コンテンツを体系化できるだけでなく、他のコンテンツと補完的に連携した新たなコンテンツを生み出すことができる。
サービスプロバイダは、コミュニティサイトの知識を利用して共通化されたメタデータや体系化されたコンテンツにより、映像百科事典といった複数のコンテンツを連携した新たなサービスを容易に提供できる。また、例えば、映像コンテンツとWebコンテンツ、映像コンテンツと映像コンテンツ、といった柔軟なコンテンツ連携が可能となる。
【0061】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
【0062】
前述の実施形態では、映像コンテンツ又はWebページを例にメタデータの付与方法を説明したが、コンテンツはこれらには限られず、オントロジーとのマッチングが可能なテキストデータが付与された様々なコンテンツを対象とできる。
【0063】
また、前述の管理サーバ1(オントロジー生成装置、メタデータ出力装置)及びコンテンツサーバ2(コンテンツ取得装置)の各機能は、サービス形態に応じて適宜分散又は統合されたシステムとして提供されてよい。
【0064】
本実施形態では、オントロジーの生成装置、並びにこのオントロジーを利用するメタデータ出力装置及びコンテンツ取得装置の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、オントロジーを生成又は利用するための方法、又はプログラムとして構成されてもよい。
【0065】
さらに、各装置の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
【0066】
ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0067】
さらに「コンピュータで読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【符号の説明】
【0068】
1 管理サーバ(オントロジー生成装置、メタデータ出力装置)
2 コンテンツサーバ(コンテンツ取得装置)
11 対象指定部
12 見出し抽出部
13 単語抽出部
14 構造化部
15 辞書取得部
16 コンテンツ指定部
17 出力部
21 メタデータ取得部
22 第1コンテンツ取得部
23 第2コンテンツ取得部
図1
図2
図3
図4
図5
図6
図7