特許第6653334号(P6653334)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッドの特許一覧

<>
  • 特許6653334-情報抽出方法及び装置 図000002
  • 特許6653334-情報抽出方法及び装置 図000003
  • 特許6653334-情報抽出方法及び装置 図000004
  • 特許6653334-情報抽出方法及び装置 図000005
  • 特許6653334-情報抽出方法及び装置 図000006
  • 特許6653334-情報抽出方法及び装置 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6653334
(24)【登録日】2020年1月29日
(45)【発行日】2020年2月26日
(54)【発明の名称】情報抽出方法及び装置
(51)【国際特許分類】
   G06F 16/951 20190101AFI20200217BHJP
   G06F 40/14 20200101ALI20200217BHJP
   G06F 40/274 20200101ALI20200217BHJP
   G06F 40/117 20200101ALI20200217BHJP
【FI】
   G06F16/951
   G06F17/22 647
   G06F17/27 665
   G06F17/21 680
【請求項の数】12
【全頁数】19
(21)【出願番号】特願2017-552070(P2017-552070)
(86)(22)【出願日】2016年6月17日
(65)【公表番号】特表2018-513480(P2018-513480A)
(43)【公表日】2018年5月24日
(86)【国際出願番号】CN2016086213
(87)【国際公開番号】WO2017113645
(87)【国際公開日】20170706
【審査請求日】2017年10月3日
(31)【優先権主張番号】201511022937.X
(32)【優先日】2015年12月30日
(33)【優先権主張国】CN
【前置審査】
(73)【特許権者】
【識別番号】513224353
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
(74)【代理人】
【識別番号】110001416
【氏名又は名称】特許業務法人 信栄特許事務所
(72)【発明者】
【氏名】チン,ショウコー
(72)【発明者】
【氏名】ハン,ヨウ
(72)【発明者】
【氏名】チェン,チーヤン
(72)【発明者】
【氏名】マー,フェイチャオ
(72)【発明者】
【氏名】シュイ,ペイチー
【審査官】 齊藤 貴孝
(56)【参考文献】
【文献】 米国特許出願公開第2009/0177959(US,A1)
【文献】 中国特許出願公開第104268192(CN,A)
【文献】 中国特許出願公開第102631002(CN,A)
【文献】 特開平11−003335(JP,A)
【文献】 特開2006−244102(JP,A)
【文献】 池上 敬明、外1名,Web上のQAデータの構造の抽出と利用,言語処理学会第11回年次大会発表論文集,日本,言語処理学会,2005年 3月15日,p.440−443
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
G06F 17/21
G06F 17/22
G06F 17/27
(57)【特許請求の範囲】
【請求項1】
装置により実行される方法であって、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップと、を含み、
前記の予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップには、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させるステップと、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成するステップと、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するステップと、を含み、
前記の各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップには、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割するステップと、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識するステップと、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するステップと、を含
ことを特徴とする情報抽出方法。
【請求項2】
前記の前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成するステップには、
前記少なくとも1つの本文ノードに含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するステップと、を含む
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記の前記少なくとも1つの本文ノードに含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するステップには、
前記少なくとも1つの本文ノードに含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも1つの本文ノードから少なくとも1つの候補タイトルノードを選択するステップと、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算するステップと、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付けるステップと、
順序付けの結果に基づいて前記少なくとも1つの候補タイトルノードから1つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するステップと、を含む
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記の前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップには、
各本文ノードにおける少なくとも1つのブロック要素を認識するステップと、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得するステップと、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するステップと、を含む
ことを特徴とする請求項1に記載の方法。
【請求項5】
前記の分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップには、
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行うステップと、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定するステップと、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出するステップと、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも1つに基づいて、問題と解答を含む情報を抽出するステップと、を含む
ことを特徴とする請求項1に記載の方法。
【請求項6】
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するように配置される解析ユニットと、
前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するように配置される分割ユニットと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するように配置される分類ユニットと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するように配置される抽出ユニットと、を備え、
前記解析ユニットは、更に、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させ、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成し、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するように配置され、
前記分類ユニットは、更に、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割し、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識し、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するように配置される
ことを特徴とする情報抽出装置。
【請求項7】
前記分割ユニットは、
前記少なくとも1つの本文ノードに含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するように配置される認識サブユニットと、
前記少なくとも1つの本文ノードに含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するように配置される分割サブユニットと、を備える
ことを特徴とする請求項6に記載の装置。
【請求項8】
前記認識サブユニットは、更に、
前記少なくとも1つの本文ノードに含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも1つの本文ノードから少なくとも1つの候補タイトルノードを選択し、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算し、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付け、
順序付けの結果に基づいて前記少なくとも1つの候補タイトルノードから1つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するように配置される
ことを特徴とする請求項7に記載の装置。
【請求項9】
前記分割ユニットは、更に、
各本文ノードにおける少なくとも1つのブロック要素を認識し、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するように配置される
ことを特徴とする請求項6に記載の装置。
【請求項10】
前記抽出ユニットは、更に、
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行い、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定し、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出し、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも1つに基づいて、問題と解答を含む情報を抽出するように配置される
ことを特徴とする請求項6に記載の装置。
【請求項11】
プロセッサと、
メモリと、を備えており、
前記メモリに前記プロセッサにより実行可能なコンピュータ可読命令が記憶され、前記コンピュータ可読命令が実行される場合、前記プロセッサが情報抽出方法を実行し、前記方法は、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップと、を含み、
前記の予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップには、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させるステップと、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成するステップと、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するステップと、を含み、
前記の各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップには、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割するステップと、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識するステップと、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するステップと、を含む
ことを特徴とする装置。
【請求項12】
不揮発性コンピュータ記憶媒体であって、
プロセッサにより実行可能なコンピュータ可読命令が記憶され、前記コンピュータ可読命令がプロセッサに実行される場合、前記プロセッサが情報抽出方法を実行し、前記方法は、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップと、を含み、
前記の予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップには、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させるステップと、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成するステップと、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するステップと、を含み、
前記の各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップには、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割するステップと、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識するステップと、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するステップと、を含む
ことを特徴とする不揮発性コンピュータ記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は2015年12月30日に提出した、出願番号が201511022937.Xである中国特許出願に基づく優先権を主張し、当該出願の全文を引用により本願に組み込む。
【0002】
本願はコンピュータ技術分野に関し、具体的に情報技術分野に関し、特に情報抽出方法及び装置に関する。
【背景技術】
【0003】
インターネット技術が盛んに発展されていることに伴って、インターネットにおける情報リソースはますます豊かになる。一方、検索エンジンは、ネットワークユーザのためにインターネットにおいて求められた情報を迅速に検索することに大きな利便性をもたらす。さらに、インターネットにおけるリソースの増加、及び検索エンジンにおけるユーザ行動データの蓄積に伴って、検索エンジンは自動問答を提供する能力を有するようになる。従来の検索エンジンに比べて、自動問答システムの検索結果は、順序付けられたウェブページリストではなく、関連ウェブページから直接抽出された解答になり、ユーザは、時間をかけてウェブページから解答を探す必要がなくなるため、ユーザの時間を節約する。
【0004】
自動問答システムインデックスのコンテンツがウェブページ全体のコンテンツではなく、ウェブページコンテンツにおける問答を含む1つの段落又は複数の文であり、且つインターネットにおいて既存の問題及び問題の解答のリソースが少なく、従って、ウェブページコンテンツから問題及び問題の解答の情報を抽出する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願は、上記背景技術に言及された技術問題を解決するために、改良された情報抽出方法及び装置を提供することを特徴とする。
【課題を解決するための手段】
【0006】
本発明の第一態様によれば、情報抽出方法を提供し、この方法は、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップと、を含む。
【0007】
いくつかの実施例において、前記の前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成するステップには、
前記少なくとも1つの本文ノードに含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するステップと、を含む。
【0008】
いくつかの実施例において、前記の予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップには、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させるステップと、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成するステップと、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するステップと、を含む
【0009】
いくつかの実施例において、前記の前記少なくとも1つのテキスト本文に含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するステップには、
前記少なくとも1つのテキスト本文に含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも1つのテキスト本文から少なくとも1つの候補タイトルノードを選択するステップと、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算するステップと、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付けるステップと、
順序付けの結果に基づいて前記少なくとも1つの候補タイトルノードから1つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するステップと、を含む。
【0010】
いくつかの実施例において、前記の前記少なくとも1つのテキスト本文に含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップには、
各テキスト本文における少なくとも1つのブロック要素を認識するステップと、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得するステップと、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するステップと、を含む。
【0011】
いくつかの実施例において、前記の各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップには、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割するステップと、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識するステップと、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するステップと、を含む。
【0012】
いくつかの実施例において、前記の分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップには、
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行うステップと、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定するステップと、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出するステップと、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも1つに基づいて、問題と解答を含む情報を抽出するステップと、を含む。
【0013】
本発明の第二態様によれば、情報抽出装置を提供し、この装置は、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つのテキスト本文を認識するように配置される解析ユニットと、
前記少なくとも1つのテキスト本文に含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するように配置される分割ユニットと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するように配置される分類ユニットと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するように配置される抽出ユニットと、を備える。
【0014】
いくつかの実施例において、前記分割ユニットは、
前記少なくとも1つのテキスト本文に含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するように配置される認識サブユニットと、
前記少なくとも1つのテキスト本文に含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するように配置される分割サブユニットと、を備える。
【0015】
いくつかの実施例において、前記解析ユニットは、更に、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させ、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成し、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいてテキスト本文を決定するように配置される。
【0016】
いくつかの実施例において、前記認識サブユニットは、更に、
前記少なくとも1つのテキスト本文に含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも1つのテキスト本文から少なくとも1つの候補タイトルノードを選択し、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算し、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付け、
順序付けの結果に基づいて前記少なくとも1つの候補タイトルノードから1つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するように配置される。
【0017】
いくつかの実施例において、前記分割ユニットは、更に、
各テキスト本文における少なくとも1つのブロック要素を認識し、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するように配置される。
【0018】
いくつかの実施例において、前記分類ユニットは、更に、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割し、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識し、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するように配置される。
【0019】
いくつかの実施例において、前記抽出ユニットは、更に、
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行い、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定し、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出し、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも1つに基づいて、問題と解答を含む情報を抽出するように配置される。
【0020】
本願に係る情報抽出方法及び装置は、ウェブページファイルをタグツリー構造として解析し、次に本文ノードに含まれるコンテンツに対して段落分割を行って段落ブロックを生成し、最後に段落ブロックに含まれるテキストコンテンツを分類し、分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出することで、情報を自動的且つ正確に抽出することを実現する。
【0021】
以下の図面を参照しながら行った非限定的な実施例についての詳細な説明に基づいて、本願の他の特徴、目的や利点はより明瞭になる。
【図面の簡単な説明】
【0022】
図1】本願を適用できる例示的なシステムアーキテクチャー図である。
図2】本願に係る情報抽出方法の一実施例のフローチャートである。
図3】本願に係る情報抽出方法の一応用シナリオの模式図である。
図4】本願に係る情報抽出方法の別の実施例のフローチャートである。
図5】本願に係る情報抽出装置の一実施例の構造模式図である。
図6】本願の実施例を実現するための端末装置又はサーバに適用されるコンピュータシステムの構造模式図である。
【発明を実施するための形態】
【0023】
以下、図面及び実施例を参照しながら本発明をより詳細に説明する。ここで説明する具体的な実施例は、かかる発明を説明するものに過ぎず、当該発明を限定するものではないと理解すべきである。ただし、説明の便宜上、図面に発明に関連する部分のみが示されている。
【0024】
なお、衝突しない場合、本願の実施例及び実施例の特徴を相互に組み合せてもよい。以下、図面及び実施例を参照しながら本願を詳細に説明する。
【0025】
図1は本願の情報抽出方法又は情報抽出装置を適用できる実施例の例示的なシステムアーキテクチャー100を示す。
【0026】
図1に示されるように、システムアーキテクチャー100は、端末装置101、102、103、ネットワーク104及びサーバ105を備えてもい。ネットワーク104は端末装置101、102、103とサーバ105の間に通信リンクを提供する媒体に用いられている。ネットワーク104は様々な接続タイプ、例えば有線、無線通信リンク又は光ファイバーケーブル等を含んでもよい。
【0027】
ユーザは端末装置101、102、103を用いてネットワーク104を介してサーバ105とインタラクションして、それによりメッセージなどを送受信することができる。端末装置101、102、103に、様々な通信クライアントアプリケーション、例えばウェブブラウザアプリケーション、検索アプリケーション、ニュースアプリケーション、インスタントメッセージングツール、メールボックスクライアント、ソーシャルソフトウェアプラットフォームソフトウェア等がインストールされてもよい。
【0028】
端末装置101、102、103は情報処理をサポートする各種の電子機器であってもよく、スマートフォン、タブレットPC、e−Bookリーダー、MP3プレーヤー (Moving Picture Experts Group Audio Layer III、ムービング・ピクチャー・エクスパーツ・グループオーディオレイヤーIII)、MP4プレーヤー(Moving Picture Experts Group Audio LayerIV、ムービング・ピクチャー・エクスパーツ・グループオーディオレイヤーIV)、ラップトップ型コンピュータ及びデスクトップコンピュータなどを含むが、それらに限定されるものではない。
【0029】
サーバ105は各種のサービスを提供するサーバ、例えば端末装置101、102、103にウェブページファイル情報を提供するバックグラウンドウェブページサーバであってもよい。バックグラウンドウェブページサーバはインターネットにおけるウェブページファイルを端末装置に送信することができ、インターネットにおけるウェブページファイルに情報分析、抽出などの処理を行った後に処理結果を端末装置に送信することもできる。
【0030】
なお、本願の実施例で提供される情報抽出方法はサーバ105により単独で実行されてもよく、端末装置101、102、103とサーバ105とにより共同で実行されてもよく、端末装置101、102、103により単独で実行されてもよい。相応に、情報抽出装置は端末101、102、103に設置されてもよく、情報抽出装置はサーバ105に設置されてもよく、情報抽出装置の一部のユニットはサーバ105に設置されてもよい。
【0031】
なお、図1における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎない。必要に応じて、端末装置、ネットワーク及びサーバの数が任意であってもよい。
【0032】
続いて、本願に係る情報抽出方法の一実施例のフロー200を示す図2を参照する。前記情報抽出方法は、ステップ200〜ステップ204を含む。
【0033】
ステップ201:予め取得されたウェブページファイルをタグツリー構造として解析し、タグツリーのノードからウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識する。
【0034】
本実施例では、情報抽出方法を実行する電子機器は、予めローカル又は遠隔でウェブページファイルを取得することができ、例えば、上記電子機器がウェブページサーバである場合、ローカルでウェブページファイルを取得し、上記電子機器が移動端末である場合、有線接続方式又は無線接続方式によってウェブページサーバからウェブページファイルを取得することができる。上記ウェブページファイルは、各種のフォーマットのファイル、例えば、htmlフォーマット、xhtmlフォーマット、dhtmlフォーマット、aspフォーマット、phpフォーマット、jspフォーマット、shtmlフォーマット、nspフォーマット、xmlフォーマットであってもよい。上記電子機器は、上記ウェブページファイルをタグツリー構造として解析し、つまり、ウェブページファイルにおけるタグをネスト関係に従って整理して1つのツリー構造にすることができる。上記電子機器はさらに、解析して取得されたタグツリーに対してフィルタリング処理を行い、ウェブページ本文に無関係の情報が所在するノードを除去することができ、ウェブページ本文に無関係の情報がナビゲーション情報、著作権声明情報、広告情報等を含んでもよいが、これらに制限されない。上記電子機器はさらに、各ノードに含まれるコンテンツに基づいて、更にタグツリーのノードからウェブページ本文が所在する少なくとも1つの本文ノードを認識することができ、例えば、含まれるテキストの字数が設定数量より大きく、含まれるリンク文字が設定数量より少ないノードを本文ノードとして認識することができる。なお、上記無線接続方式は、3G/4G接続、WiFi接続、ブルートゥース(登録商標)接続、WiMAX接続、Zigbee接続、UWB(ultra wideband)接続、ほかの既知又は将来開発する無線接続方式を含んでもよいが、これらに制限されない。
【0035】
本実施例のいくつかの選択可能な実施形態では、上記電子機器は、まず予め取得したウェブページファイルに対して標準化処理を行い、上記ウェブページファイルをHTML仕様に一致させることができ、例えば、<title>タグがあるが対応する</title>タグがないウェブページファイルに</title>を補足し、また、例えば<li>、<hr>等の終了タグを補足し、次に、標準化したウェブページファイルに対してドキュメントオブジェクトモデル(DOM、Document Object Model)ツリー解析を行い、タグツリーを生成し、最後に、生成したタグツリーの各ノードに順にアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定する。例えば、タグツリーの各ノードに含まれるテキスト字数、リンクテキスト字数、段落数、含まれるリーフノードにおけるテキスト数の分散等の統計量をそれぞれ統計し、統計量と予め設定された閾値とを比較し、条件を満たすノードを本文ノードとして選択し、例えばテキスト字数が多く、リンクテキスト字数が少なく、段落数が多く、含まれるリーフノードにおけるテキスト数の分散が大きいノードを本文ノードとして認識する。
【0036】
ステップ202:少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定する。
【0037】
本実施例では、上記電子機器は、上記少なくとも1つの本文ノードに含まれるテキストコンテンツに対して段落分割を行い、それぞれの段落ブロックを生成し、各段落ブロックが上記ウェブページファイルに対応するウェブページ本文の段落に対応し、同時に、各段落ブロックに関連するタグの属性(例えばカラー、太字、リンク、数字リスト、非数字リスト等)に基づいて各段落ブロックに対してタグ属性を設定する。
【0038】
本実施例のいくつかの選択可能な実施形態では、上記電子機器は、まず少なくとも1つの本文ノードに含まれるコンテンツからウェブページファイルのウェブページコンテンツのタイトルを認識することができ、例えば、上記電子機器は、各ノードに含まれるコンテンツの上記ウェブページファイルに対応するウェブページ本文での位置、各ノードに含まれるテキストコンテンツに基づいて、ステップ201で取得された少なくとも1つの本文ノードから上記ウェブページファイルのウェブページコンテンツのタイトルを認識し、次に上記少なくとも1つの本文ノードに含まれるコンテンツにおける、当該タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成することができる。
【0039】
オプションとして、上記電子機器は、まず少なくとも1つの本文ノードに含まれるコンテンツの上記ウェブページコンテンツでの位置に基づいて、上記少なくとも1つの本文ノードから少なくとも1つの候補タイトルノードを選択することができ、例えば、上記電子機器は、ウェブページコンテンツの上端の設定範囲内のテキストコンテンツに対応するノードを見つけて、見つけられたノードを候補タイトルノードとし、次に、各候補タイトルノード内のテキストと、上記ウェブページファイルのタイトル(title)タグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカー(anchor)タグに対応するテキストとの編集距離を計算し、次に、各候補タイトルノード内のタグ情報及び計算した編集距離に基づいて各候補タイトルノードを順序付け、例えば編集距離の昇順で順序付け、最後に、順序付けの結果に基づいて上記少なくとも1つの候補タイトルノードから1つのテキストタイトルノードを決定し、上記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定することができる。オプションとして、上記電子機器はさらに、順序付けの結果と各候補タイトルノードに関連するタグに基づいて、上記少なくとも1つの候補タイトルノードから1つのテキストタイトルノードを決定することができ、例えば、タイトルタグ(Hタグ)、太字(strong)タグ等の、タイトルによく現れるタグを含み、且つ編集距離が設定値より小さい候補タイトルノードをテキストタイトルノードとして選択する。
【0040】
本実施例のいくつかの選択可能な実施形態では、上記電子機器は、まず各本文ノードにおける少なくとも1つのブロック要素を認識し、ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行(br)タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、次に、ブロック要素及びサブブロック要素に関連するタグの属性(例えばカラー、太字、リンク、数字リスト、非数字リスト等)に基づいて各段落ブロックに対してタグ属性を設定する。
【0041】
ステップ203:各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類する。
【0042】
本実施例では、上記電子機器は、ステップ202で取得された各段落ブロック及び各段落ブロックのタグ属性に基づいて、各段落ブロックに含まれるテキストコンテンツを分類することができる。例えば、タグ属性が同じである段落ブロックを同じクラスに分割することができる。
【0043】
ステップ204:分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出する。
【0044】
本実施例では、上記電子機器は、従来の自然言語処理分析技術を用いてステップ203で取得された分類結果に対して分析処理を行い、各段落ブロックに含まれるテキストコンテンツから問題を抽出することができ、例えば、各段落ブロックに含まれるテキストコンテンツに対して単語分割、セマンティクス分析等の一連の処理を行い、各段落ブロックに含まれるテキストコンテンツから疑問文を抽出する。上記電子機器は、問題を抽出した後に、抽出した問題の上記ウェブページコンテンツでの位置及び各段落ブロックに含まれるテキストコンテンツに基づいて当該問題に対応する解答を抽出することができる。
【0045】
続いて、本実施例に係る情報抽出方法の応用シナリオの一模式図である図3を参照する。図3の応用シナリオでは、ユーザは、Webブラウジングを行う端末装置で、解答を検索しようとする問題「前立腺炎の症状」を入力し、図3に示すように、ウェブページサーバは、予め記憶された複数の問題と解答の情報から、問題「前立腺炎の症状」に関連する問題と解答を検索し、検索した問題と解答をユーザにプッシュする。予め記憶された複数の問題と解答の情報は、まず、予め取得したウェブページファイルをタグツリー構造として解析し、タグツリーから当該ウェブページファイルのウェブページ本文が所在する少なくとも1つの本文ノードを認識し、次に、テキストコンテンツに対して段落分割を行って段落ブロックを取得して、各段落ブロックのタグ属性を設定し、最後に、各段落ブロックに含まれるテキストコンテンツを分類し、分類結果に基づいてテキストコンテンツからウェブページコンテンツに含まれる問題と解答を抽出する方式によって、取得される。
【0046】
本願の上記実施例に係る方法は、ウェブページファイルをタグツリーとして解析し、認識した本文ノードに含まれるコンテンツに対して段落分割を行い、タグ属性を設定し、最終的にウェブページ本文における問題と解答を含む情報を抽出することで、情報を自動的且つ正確に抽出することを実現する。
【0047】
更に、情報抽出方法の別の実施例のフロー400を示す図4を参照する。当該情報抽出方法のフロー400は、ステップ401〜ステップ406を含む。
【0048】
ステップ401:予め取得したウェブページファイルをタグツリー構造として解析し、タグツリーのノードからウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識する。
【0049】
本実施例では、情報抽出方法を実行する電子機器は、予めローカル又は遠隔でウェブページファイルを取得し、上記ウェブページファイルをタグツリー構造として解析することができる。次に、上記電子機器はさらに、各ノードに含まれるコンテンツに基づいて更にタグツリーのノードからウェブページ本文が所在する少なくとも1つの本文ノードを認識することができる。
【0050】
ステップ402:少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定する。
【0051】
本実施例では、上記電子機器は、上記少なくとも1つの本文ノードに含まれるテキストコンテンツに対して段落分割を行い、各段落ブロックを生成し、同時に、各段落ブロックに関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定することができる。
【0052】
ステップ403:タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割する。
【0053】
本実施例では、上記電子機器は、ステップ402で取得された段落ブロックのうちのタグ属性が同じである段落ブロックを同じ段落ブロック集合に分割することができる。
【0054】
ステップ404:各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識する。
【0055】
本実施例では、上記電子機器は、各段落ブロック集合内の各段落ブロックの間の平均行間隔、最大連続行間隔数、平均文字数、最大文字数等を計算して閾値を設定し、所定の行間隔を有し、文字長さが均一であり且つあまり大きくない段落ブロックを短タイトル構造として認識することができる。
【0056】
ステップ405:各段落ブロック集合における非短タイトル構造の段落ブロックを含まれるテキストに基づいて分類する。
【0057】
本実施例では、上記電子機器は、各段落ブロック集合における非短タイトル構造の段落ブロックを含まれるテキストに基づいて分類することができ、例えば、段落ブロック内のテキストに数字が含んでいるか否か、段落の開始部分に強調構文があるか否かに基づいて、段落ブロックを、番号キー値型段落、キー値型段落、番号型段落及び普通型段落等のカテゴリーに分割し、番号キー値型段落とは、番号を有し且つキー値型構造である段落(例えば1、中心思想を抽出する方法:現象を通して本質をつかむこと)を意味する。
【0058】
ステップ406:分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出する。
【0059】
本実施例では、上記電子機器は、ステップ405で取得された分類結果に基づいて、各段落ブロックに含まれるテキストコンテンツから問題と当該問題に対応する解答を抽出することができる。
【0060】
本実施例のいくつかの選択可能な実施形態では、上記電子機器は、まずステップ404で認識した短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行うことができ、例えば、認識した短タイトル構造、及び、当該短タイトル構造と次の短タイトル構造との間の一部を1つのロジックブロックに分割し、次に、正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定し、次に、候補問題の上記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて、候補問題に対応する候補解答を抽出し、最後に、候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも1つに基づいて、問題と解答を含む情報を抽出することができ、例えば候補問題と最初の候補解答のコンテンツとの間の行数が所定の閾値を超える場合、当該候補問題と候補解答を除去し、候補解答が数字番号を有する複数のコンテンツを含み且つ番号が連続的ではない場合、当該候補解答及び当該候補解答に対応する候補問題を除去し、候補解答に含まれる解答のエントリー数が設定閾値より小さい場合、当該候補解答及び当該候補解答に対応する候補問題を除去し、候補解答に含まれた解答エントリーのうちの複数が問題と判断された(例えば複数が疑問句と判断される)場合、当該候補解答及び当該候補解答に対応する候補問題を除去し、ここで、解答のエントリー数は、解答に含まれるエントリーの数量を意味し、各エントリーは、1つの段落を意味してもよく、1つの文を意味してもよい。
【0061】
図4からわかるように、図2に対応する実施例に比べて、本実施例における情報抽出方法のフロー400は、各段落ブロックに対する分割及び各サブブロック集合における短タイトル構造の認識を強調する。そのため、本実施例で説明された形態は、ウェブページコンテンツにおける問題をより正確に認識して、情報を正確に抽出することができる。
【0062】
更に図5に示すように、上記各図に示す方法の実施形態として、本願は、情報抽出装置の一実施例を提供し、当該装置の実施例は図2に示す方法実施例に対応し、当該装置は具体的に各種の電子機器に適用することができる。
【0063】
図5に示すように、本実施例の前記情報抽出装置500は、解析ユニット501、分割ユニット502、分類ユニット503及び抽出ユニット504を備える。解析ユニット501は、予め取得したウェブページファイルをタグツリー構造として解析し、上記タグツリーのノードから上記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するように配置され、分割ユニット502は、上記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するように配置され、分類ユニット503は、各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するように配置され、抽出ユニット504は、分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するように配置される。
【0064】
本実施例では、情報抽出装置500の解析ユニット501は、予め取得したウェブページファイルをタグツリー構造として解析し、上記タグツリーのノードから上記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識することができる。
【0065】
本実施例では、上記分割ユニット502は、上記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定することができる。
【0066】
本実施例では、上記分類ユニット503は、上記分割ユニット502で取得された各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類することができる。
【0067】
本実施例では、上記抽出ユニット504は、上記分類ユニット503で取得された分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出することができる。
【0068】
当業者であれば、上記情報抽出装置500はさらに、いくつかのその他の周知構造、例えばプロセッサ、記憶装置等を備え、本開示の実施例を不明瞭にしないように、これらの周知の構造が図5に示されていないことを理解することができる。
【0069】
本願の実施例を実現するための端末装置又はサーバに適用されるコンピュータシステム600の構造模式図を示す図6を参照する。
【0070】
図6に示すように、コンピュータシステム600は、読み出し専用メモリ(ROM)602に記憶されているプログラム又は記憶部608からランダムアクセスメモリ(RAM)603にロードされたプログラムに基づいて様々な適切な動作及び処理を実行することができる中央処理装置(CPU)601を備える。RAM603には、システム600の操作に必要な様々なプログラム及びデータがさらに記憶されている。CPU601、ROM602及びRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
【0071】
キーボード、マウスなどを含む入力部606、陰極線管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む出力部607、ハードディスクなどを含む記憶部608、及びLANカード、モデムなどを含むネットワークインターフェースカードの通信部609は、I/Oインターフェース605に接続されている。通信部609は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ610は、必要に応じてI/Oインターフェース605に接続される。リムーバブルメディア611は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ610に取り付けられ、したがって、ドライバ610から読み出されたコンピュータプログラムが必要に応じて記憶部608にインストールされる。
【0072】
特に、本発明の実施例によれば、上記フローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本発明の実施例は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は、機械可読媒体に有形に具現化されるコンピュータプログラムを含み、前記コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、当該コンピュータプログラムは、通信部609を介してネットワークからダウンロードされてインストールされてもよく、及び/又はリムーバブルメディア611からインストールされてもよい。
【0073】
図面におけるフローチャート及びブロック図は、本発明の各実施例に係るシステム、方法及びコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャート又はブロック図における各枠は、1つのモジュール、プログラムセグメント、又はコードの一部を代表してもよく、前記モジュール、プログラムセグメント、又はコードの一部は、規定された論理機能を実現するための1つ以上の実行可能な命令を含む。なお、いくつかの代替実施態様として、枠に示された機能は、図面に示された順番と異なる順番で実行されてもよい。例えば、連続して示された2つの枠は、関連する機能に応じて、実際にほぼ並行に実行されてもよく、逆の順番で実行されてもよい。なお、ブロック図及び/又はフローチャートにおける各枠と、ブロック図及び/又はフローチャートにおける枠の組合せは、規定された機能又は操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、あるいは、専用ハードウェアとコンピュータの命令との組合せで実行されてもよい。
【0074】
本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設定されてもよく、例えば、「解析ユニット、分割ユニット、分類ユニット、及び抽出ユニットを備えるプロセッサ」として記載されてもよい。その中でも、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、解析ユニットは、「予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページテキストが所在する少なくとも1つのテキストノードを認識するユニット」として記載されてもよい。
【0075】
一方、本発明は、不揮発性コンピュータ記憶媒体をさらに提供し、当該不揮発性コンピュータ記憶媒体は、上記実施例の前記装置に含まれる不揮発性コンピュータ記憶媒体であってもよく、独立に存在して端末に組み立てられていない不揮発性コンピュータ記憶媒体であってもよい。前記不揮発性コンピュータ記憶媒体は、1つ以上のプログラムが記憶され、前記1つ以上のプログラムが1つの機器により実行された場合、上記機器に、予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識し、前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定し、各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類し、分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するようにさせる。
【0076】
以上の記載は、本発明の好ましい実施例、及び使用された技術的原理の説明に過ぎない。本発明に係る特許請求の範囲が、上記技術的特徴の特定な組合せからなる技術案に限定されることではなく、本発明の趣旨を逸脱しない範囲で、上記技術的特徴又は同等の特徴の任意の組合せからなる他の技術案も含むべきであることを、当業者は理解すべきである。例えば、上記特徴と、本発明に開示された類似の機能を持っている技術的特徴(これらに限定されていない)とを互いに置き換えてなる技術案が挙げられる。
図1
図2
図3
図4
図5
図6