(58)【調査した分野】(Int.Cl.,DB名)
テキストデータを収集、加工する収集・加工部と、コンテンツを編集するコンテンツ編集部と、概念ごとにその概念がどのように知識体系において説明されるべきかの記載方法が記述されるクラステンプレートと、記述ページを検索し、単語と一致する情報を取得する出力生成部と、前記収集・加工部が加工したデータページおよび前記コンテンツ編集部が生成した前記記述ページを格納するコンテンツデータベースと、を備えたコンピュータシステムによるコンテンツ管理方法であって、
前記収集・加工部において、テキストデータを収集し、前記テキストデータを加工してデータページとして前記コンテンツデータベースに格納するステップと、
前記コンテンツ編集部において、前記データページを参照して知識体系を作成し、前記記述ページとして前記コンテンツデータベースに格納するステップと、
前記出力生成部において、検索要求に基づいて入力された単語を前記記述ページの見出し語から検索し、前記単語と一致する前記記述ページの情報を取得するステップと、
を有し、
前記記述ページとして格納するステップは、前記コンテンツ編集部は、前記クラステンプレートを参照することによって、前記見出し語に対応する知識体系記載に必要な項目と前記項目に対する処理とを取得し、前記項目ごとの処理の結果を前記コンテンツデータベースの前記記述ページに格納する、コンテンツ管理方法。
テキストデータを収集、加工する収集・加工部と、コンテンツを編集するコンテンツ編集部と、概念ごとにその概念がどのように知識体系において説明されるべきかの記載方法が記述されるクラステンプレートと、記述ページを検索し、単語と一致する情報を取得する出力生成部と、前記収集・加工部が加工したデータページおよび前記コンテンツ編集部が生成した前記記述ページを格納するコンテンツデータベースと、を備えたコンピュータシステムに実行させるプログラムであって、
前記収集・加工部において、テキストデータを収集し、前記テキストデータを加工してデータページとして前記コンテンツデータベースに格納するステップと、
前記コンテンツ編集部において、前記データページを参照して知識体系を作成し、前記記述ページとして前記コンテンツデータベースに格納するステップと、
前記出力生成部において、検索要求に基づいて入力された単語を前記記述ページの見出し語から検索し、前記単語と一致する前記記述ページの情報を取得するステップと、
を有し、
前記記述ページとして格納するステップは、前記クラステンプレートを参照することによって、前記見出し語に対応する知識体系記載に必要な項目と前記項目に対する処理とを取得し、前記項目ごとの処理の結果を前記コンテンツデータベースの前記記述ページに格納する、プログラム。
【発明の概要】
【発明が解決しようとする課題】
【0009】
ところが、上記のような情報を自動的に整理して活用に供するシステムでは、次のような問題点があることが本発明者により見い出された。
【0010】
第1に、当該の資料を要約するという考え方では、当該の資料が出発点となっており、その内容に依存した知識を表現するにとどまり、本来世の中の事物を整理すべき観点から必要な記述がなされない。
【0011】
例えば特許文献1や特許文献3のように当該の資料や書物といった所与のコンテンツを出発点とすると、そもそも当該概念に対してこういうことが知りたいという観点からの情報の整理ではなく、その所与のコンテンツに書いてあることをその所与のコンテンツに書いてある通りの整理の仕方で要約することしかできない。
【0012】
第2に、世の中に参照すべき情報源として複数の文書があった場合に、それらを有機的に統合された1つの知識にまとめることができない。特許文献2では、出力すべき抽出結果が複数あった場合は、全部出力するか、その際に分野モデルP(c|d)の評価値の高い順で出力するか、特定の分野cに絞って出力するかのいずれかとしている。
【0013】
ここで、P(c|d)は、用語説明dが分野cに関連する度合いを表す。単に正解に近そうな記載のみを選んで抽出したり、目に触れやすいように先に記載するという機能では、その分野の情報を整理された形で総覧したいというような利用方法に供することはできない。
【0014】
第3に、質問応答のような機能では、Q&Aのように聞かれたことに答えるしかできず、百科事典のように、その周辺知識も含め、その分野に関する系統だった知識を生成し、利用に供することができない。
【0015】
本発明の目的は、該当分野に関する統計だった知識体系を自動生成することにより、事物を整理する観点にて知識を体系化することのできる技術を提供することにある。
【0016】
本発明の前記ならびにその他の目的と新規な特徴については、本明細書の記述および添付図面から明らかになるであろう。
【課題を解決するための手段】
【0017】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。
【0018】
すなわち、代表的なものの概要は、コンテンツ管理システムに適用され、以下のような特徴を有するものである。
【0019】
コンテンツ管理システムは、収集・加工部、コンテンツ編集部、クラステンプレート、および出力生成部を有する。収集・加工部は、テキストデータを収集し、該テキストデータをデータページとして格納する。コンテンツ編集部は、コンテンツを編集する。クラステンプレートは、概念ごとにその概念がどのように知識体系において説明されるべきかの記載方法が記述される。出力生成部は、検索要求に基づいて入力された単語を記述ページの見出し語から検索し、単語と一致する記述ページの情報を取得する。
【0020】
そして、コンテンツ編集部は、クラステンプレートを参照することによって、見出し語に対応する知識体系記載に必要な項目と項目に対する処理とを取得し、データページを検索して見出し語に関係するテキストデータを取得し、取得した項目、処理、テキストデータ、および見出し語を記述ページとして格納する。
【0021】
また、本発明は、テキストデータを収集し、該当分野に関する統計だった知識体系を自動生成するシステムによる方法や、前記システムとしてコンピュータシステムを機能させるプログラムにも適用することができる。
【発明の効果】
【0022】
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
【0023】
入力された情報の内容に依存することなく、幅広い情報を体系化することができる。
【発明を実施するための形態】
【0025】
以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。
【0026】
また、以下の実施の形態において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
【0027】
さらに、以下の実施の形態において、その構成要素(要素ステップ等も含む)は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。
【0028】
同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは特に明示した場合および原理的に明らかにそうではないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。
【0029】
また、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。なお、図面をわかりやすくするために平面図であってもハッチングを付す場合がある。
【0030】
〈コンテンツ管理システムの構成〉
以下、上記した概要に基づいて、実施の形態を詳細に説明する。
【0031】
図1は、本実施の形態におけるコンテンツ管理システム100の構成の一例を示す説明図である。
【0032】
コンピュータシステムであるコンテンツ管理システム100は、
図1に示すように、収集・加工部101、コンテンツ編集部102、出力生成部103、入力部104、メモリ105、辞書106、クラステンプレート107、コンテンツデータベース108、出力部109、およびゲートウェイ110を有する。
【0033】
これら収集・加工部101、コンテンツ編集部102、出力生成部103、入力部104、メモリ105、辞書106、クラステンプレート107、コンテンツデータベース108、出力部109、およびゲートウェイ110は、バス111を介して相互に接続されている。
【0034】
また、コンテンツデータベース108は、データページ113および記述ページ114を有しており、コンテンツ編集部102は、メソッド実行部115を有している。ゲートウェイ110は、ネットワーク112と接続されている。
【0035】
収集・加工部101は、テキストデータを収集し、該テキストデータの加工を行う。コンテンツ編集部102は、見出し語の設定および見出し語に関するテキストデータの編集を行う。
【0036】
出力生成部103は、入力部104から入力された検索要求に基づいて、コンテンツデータベース108の記述ページ114を検索する。入力部104は、例えばキーボードやマウスなどを有する。
【0037】
メモリ105は、データを保持する。辞書データベースである辞書106は、概念辞書や類義語辞書などが格納されている。クラステンプレート107は、概念が知識体系において説明されるべきかの記載方法が記述されるテンプレートである。コンテンツデータベース108は、データページ113および記述ページ114を格納する。
【0038】
出力部109は、例えばモニタやプリンタなどである。ゲートウェイ110は、コンテンツ管理システム100をインターネットなどのネットワーク112に接続する接続ノードである。
【0039】
〈辞書の構成例〉
続いて、辞書106について説明する。
【0040】
図2は、
図1のコンテンツ管理システム100が有する辞書106における概念辞書のデータ形式の一例を示す説明図である。
図3は、
図1のコンテンツ管理システム100が有する辞書106における類義語辞書のデータ形式の一例を示す説明図である。
【0041】
辞書106には、前述したように
図2に示す概念辞書や
図3に示す類義語辞書が格納されている。
【0042】
図2の概念辞書は、「障害」をトップレベルにして、その子供の概念が展開されている例が示されている。また、
図3の類義語辞書では、言葉に対する類義語が対応づけられて格納されている様子が示されている。ここでは、「障害」の類義語として、「故障」「不具合」「不調」「disorder」が登録されている。
【0043】
〈クラステンプレートのデータ形式例〉
図4は、
図1のコンテンツ管理システム100が有するクラステンプレート107のデータ形式の一例を示す説明図である。
【0044】
クラステンプレート107は、
図4に示すように、概念ごとにその概念がどのように知識体系において説明されるべきかの記載方法が記述されている。この
図4の例では、「障害」という見出し語に対して、その知識体系で記載される項目は「4」つであり、その4つがその次にある「障害の種類」「障害履歴」「お客様」「当社担当」であることが記載されている。
【0045】
また、「障害の種類」の右横に「分類(子供列挙(障害))」、「障害履歴」の右横に「時系列列挙」、「お客様」の右横に「分類(お客様抽出)」、「当社担当」の右横に「分類(当社担当抽出)」とあり、これらは、それぞれ項目に対して実行すべき処理が記載されている。これをメソッドと呼ぶ。
【0046】
なお、以下に説明する収集・加工部101、コンテンツ編集部102、および出力生成部103の処理機能は、たとえば、コンテンツ管理システム100に設けられたプログラム格納メモリ(図示せず)などに記憶されているプログラム形式のソフトウェアを、該コンテンツ管理システム100の図示しないCPU(Central Processing Unit)などが実行することにより実現する。
【0047】
〈収集・加工部の処理例〉
続いて、収集・加工部101の処理について、
図5を用いて説明する。
【0048】
図5は、
図1のコンテンツ管理システム100が有する収集・加工部101の処理の一例を示すフローチャートである。
【0049】
収集・加工部101は、ゲートウェイ110を介してネットワーク112からテキストデータを収集する(ステップS101)。ここでネットワーク112は、例えばインターネット回線やイントラネットなどである。
【0050】
また、ステップS101の処理では、Webのクローリングのように世界中にあるWebサーバを探索してもよいし、入力部104によって入力されたキーワードや検索対象サーバを限定してデータを収集してもよい。
【0051】
そして、収集したデータをメモリ105に保持し、データの通番をつける、あるいは例えばURL(Uniform Resource Locator)などにより採集元の場所などを付加するなどの加工処理を行う(ステップS102)。さらに、テキスト処理のインデクスを生成して、あわせて保持してもよい。続いて、ステップS102の処理によってメモリ105に保持されたデータをデータページ113に格納する(ステップS103)。
【0052】
〈データページのデータ形式例〉
図6は、
図5のステップS103の処理においてデータページ113に格納されたデータの格納形式の一例を示す説明図である。ステップS103の処理における格納形式は、図示するように、「通番」、「テキスト内容」、「採集元」、および「インデクス」を有する。
【0053】
〈コンテンツ編集部の処理例〉
図7は、
図1のコンテンツ管理システム100が有するコンテンツ編集部102の処理の一例を示すフローチャートである。
【0054】
まず、コンテンツ編集部102は、知識体系の1項目となる見出し語を設定する(ステップS201)。ここでは、具体例として、パソコンのヘルプデスクで収集される作業履歴データを元にした知識体系構築を例にとって説明する。また、見出し語として、例えば「ソフトウェア障害」という単語を設定する。
【0055】
そして、見出し語に対応するクラステンプレート107を選択する(ステップS202)。全一致するクラステンプレート107が存在しない場合、概念辞書をたどってその親の概念を選択する。ここでは、例えば「ソフトウェア障害」という見出し語のクラステンプレートがなく、
図4に示される、見出し語が「障害」のクラステンプレートが選択される。
【0056】
このように、ある分野の概念辞書であるオントロジと、知識体系を記載する際に従うクラステンプレートとを参照して知識体系のコンテンツを編集することで、入力されたテキスト情報にのみ引きずられることなく、本来世の中の事物を整理すべき観点で知識を体系化することができる。
【0057】
その後、見出し語に関係するテキストデータをデータページ113から検索する(ステップS203)。その際、辞書106における
図3に示した類義語辞書を用いてOR(論理和)条件で検索してもよい。検索した結果は、メモリ105に格納される。複数のテキスト情報をクラステンプレートを元に整理することで複数情報源から統合知識を作成できる。
【0058】
検索が終了すると、記述ページ作成終了の判定を行う(ステップS204)。
図4のクラステンプレート107にあるように、項目をいくつ生成すればよいかが決まっているので順に処理していき、終われば終了となる。終了であれば、ステップS207の処理に移る。
【0059】
ステップS204の処理において、終了と判定した際には、メモリ105に格納された記述生成情報を記述ページ114に書き込む(ステップS207)。上記の「ソフトウェア障害」に関わる記述生成情報は、例えば
図8のような記載になっている。
【0060】
また、ステップS204の処理において、処理すべき項目が残っていると判定した際には、まだ処理すべき残っている項目を1つ選択する(ステップS205)。
【0061】
そして、選択された項目に対する知識体系の生成を行う(ステップS206)。例えば今「障害」という見出し語のクラステンプレートを参照して、「障害の種類」という項目を選択している場合、
図4のクラステンプレートを参照することで、「分類(子供列挙(障害))」という処理(メソッド)を実施することがわかる。
【0062】
〈メソッド実行部の処理例〉
続いて、
図4を用いてメソッド実行部115の処理動作について説明する。
【0063】
図4において、それぞれの項目に対するメソッドの記載で、メソッド名称の後ろにかっこがついている場合、それがメソッドへの引数となる。ない場合には、見出し語によって検索された全テキスト群が引数となる。
【0064】
分類(子供列挙(障害))という記述は、子供列挙というメソッドが「障害」を引数として実行され、その返り値を引数として分類というメソッドが実行されることを示す。
【0065】
子供列挙というメソッドは、引数を親とする子供の概念を概念辞書から検索してきてその値を返り値とする。今は「障害」のクラステンプレートを「ソフトウェア障害」という子供の概念で適用しているため、子供列挙(ソフトウェア障害)は、この場合、「OS(Operating System)障害、ミドルウェア障害、アプリケーション障害」が返り値となる。
【0066】
分類というメソッドは、見出し語によって検索された全テキスト群を、引数の文字列に関係のあるものだけフィルタして振り分けて整理することを示す。この場合、「ソフトウェア障害」で検索されメモリ105に蓄積されたテキスト群の中で、OS障害というワードが含まれるもの、ミドルウェア障害というワードが含まれるもの、アプリケーション障害というワードが含まれるものに振り分けて表示する。
【0067】
複数に含まれる場合には、それぞれに出力する。出力形態は、分類名称、テキスト文書の第1行と、そのテキスト文書へのリンク情報(URL)を記載する。
【0068】
時系列列挙というメソッドは、見出し語によって検索された全テキスト群を、その中に含まれる日時の情報で、昇順にソートして出力する。その際に、日時情報はヘッダとして抽出し、ヘッダ、テキスト文書の第1行、そのテキスト文書へのリンク情報(URL)という記載を行う。
【0069】
お客様抽出というメソッドは、見出し語によって検索された全テキスト群から、お客様名称を抽出する。お客様名称の全候補は辞書106に格納しておく。辞書106に格納されるお客様名称の全候補のデータを
図9に示す。
【0070】
したがって、分類(お客様抽出)というメソッドは、見出し語によって検索された全テキスト群から、お客様名と、その名前を含むテキスト文書の第1行、そのテキスト文書へのリンク情報(URL)を記載することになる。
【0071】
当社担当抽出というメソッドは、見出し語によって検索された全テキスト群から、当社担当の氏名を抽出する。当社担当の氏名の全候補は辞書106に格納しておく。辞書106に格納される当社担当の氏名の全候補のデータを
図10に示す。
【0072】
したがって、分類(当社担当抽出)というメソッドは、見出し語によって検索された全テキスト群から、当社担当名称と、その名前を含むテキスト文書の第1行、そのテキスト文書へのリンク情報(URL)を記載することになる。
【0073】
〈出力生成部の処理例〉
図11は、
図1のコンテンツ管理システム100が有する出力生成部103の処理の一例を示すフローチャートである。
【0074】
まず、出力生成部103は、入力部104からの検索要求を受け付ける(ステップS301)。ここでは、単語が入力受け付けされる。そして、入力受け付けされた単語を記述ページ114の見出し語の中で検索する(ステップS302)。この際に、辞書106における
図3に示した類義語辞書を参照して検索範囲を広げてもよい。続いて、検索で見つかった記述ページ114を出力部109に出力する(ステップS303)。
【0075】
〈出力部の表示例〉
図12は、出力部109に表示される検索結果の表示例を示す説明図であり、入力受け付けされた単語に対する知識体系の表示の様子を示している。
【0076】
収集・加工部101、コンテンツ編集部102、および出力生成部103は、上記の通り、非同期で動作することができる。
【0077】
以上によれば、テキスト情報を入力して知識を体系化した記述を出力することができる。また、複数の入力テキスト情報をクラステンプレートを元に整理することで、子供概念の分類ごとの整理や、時系列順での整理や、関係者での整理など、複数情報源からの統合知識を作成できる。
【0078】
上記した実施の形態では、コンテンツ管理システム100が非同期にて動作する例について記載したが、該コンテンツ管理システム100は、オンデマンドによる逐次処理を実行するようにしてよい。
【0079】
前記実施の形態においては、収集・加工部101がある間隔毎にテキストデータの検索を実行していたが、オンデマンドの場合には、入力部104から単語が入力された際に、収集・加工部101が動作してテキストデータの収集を行うことになる。
【0080】
そして、収集したテキストデータの加工を行い、その結果をコンテンツ編集部102が処理し、出力生成部103が処理する。オンデマンドの場合においても、コンテンツ管理システム100における各処理動作は、上記した動作と同様である。
【0081】
また、上記実施の形態においては、収集・加工部101、コンテンツ編集部102、および出力生成部103の処理機能を実現するプログラムがコンテンツ管理システム100に格納された構成としたが、該プログラムをクラウドサービスとして提供することも可能である。
【0082】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
【0083】
なお、本発明は上記した実施の形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
【0084】
また、ある実施の形態の構成の一部を他の実施の形態の構成に置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、各実施の形態の構成の一部について、他の構成の追加、削除、置換をすることが可能である。