【課題を解決するための手段】
【0006】
本発明の第一態様によれば、情報抽出方法を提供し、この方法は、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップと、を含む。
【0007】
いくつかの実施例において、前記の前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成するステップには、
前記少なくとも1つの本文ノードに含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するステップと、を含む。
【0008】
いくつかの実施例において、前記の予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップには、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させるステップと、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成するステップと、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するステップと、を含む
【0009】
いくつかの実施例において、前記の前記少なくとも1つのテキスト本文に含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するステップには、
前記少なくとも1つのテキスト本文に含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも1つのテキスト本文から少なくとも1つの候補タイトルノードを選択するステップと、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算するステップと、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付けるステップと、
順序付けの結果に基づいて前記少なくとも1つの候補タイトルノードから1つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するステップと、を含む。
【0010】
いくつかの実施例において、前記の前記少なくとも1つのテキスト本文に含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップには、
各テキスト本文における少なくとも1つのブロック要素を認識するステップと、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得するステップと、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するステップと、を含む。
【0011】
いくつかの実施例において、前記の各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップには、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割するステップと、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識するステップと、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するステップと、を含む。
【0012】
いくつかの実施例において、前記の分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップには、
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行うステップと、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定するステップと、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出するステップと、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも1つに基づいて、問題と解答を含む情報を抽出するステップと、を含む。
【0013】
本発明の第二態様によれば、情報抽出装置を提供し、この装置は、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つのテキスト本文を認識するように配置される解析ユニットと、
前記少なくとも1つのテキスト本文に含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するように配置される分割ユニットと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するように配置される分類ユニットと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するように配置される抽出ユニットと、を備える。
【0014】
いくつかの実施例において、前記分割ユニットは、
前記少なくとも1つのテキスト本文に含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するように配置される認識サブユニットと、
前記少なくとも1つのテキスト本文に含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するように配置される分割サブユニットと、を備える。
【0015】
いくつかの実施例において、前記解析ユニットは、更に、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させ、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成し、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいてテキスト本文を決定するように配置される。
【0016】
いくつかの実施例において、前記認識サブユニットは、更に、
前記少なくとも1つのテキスト本文に含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも1つのテキスト本文から少なくとも1つの候補タイトルノードを選択し、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算し、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付け、
順序付けの結果に基づいて前記少なくとも1つの候補タイトルノードから1つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するように配置される。
【0017】
いくつかの実施例において、前記分割ユニットは、更に、
各テキスト本文における少なくとも1つのブロック要素を認識し、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するように配置される。
【0018】
いくつかの実施例において、前記分類ユニットは、更に、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割し、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識し、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するように配置される。
【0019】
いくつかの実施例において、前記抽出ユニットは、更に、
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行い、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定し、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出し、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも1つに基づいて、問題と解答を含む情報を抽出するように配置される。
【0020】
本願に係る情報抽出方法及び装置は、ウェブページファイルをタグツリー構造として解析し、次に本文ノードに含まれるコンテンツに対して段落分割を行って段落ブロックを生成し、最後に段落ブロックに含まれるテキストコンテンツを分類し、分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出することで、情報を自動的且つ正確に抽出することを実現する。
【0021】
以下の図面を参照しながら行った非限定的な実施例についての詳細な説明に基づいて、本願の他の特徴、目的や利点はより明瞭になる。