特許第6961987号(P6961987)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許6961987日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6961987
(24)【登録日】2021年10月18日
(45)【発行日】2021年11月5日
(54)【発明の名称】日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム
(51)【国際特許分類】
   G06F 16/908 20190101AFI20211025BHJP
   G06F 16/14 20190101ALI20211025BHJP
【FI】
   G06F16/908
   G06F16/14
【請求項の数】10
【全頁数】19
(21)【出願番号】特願2017-78835(P2017-78835)
(22)【出願日】2017年4月12日
(65)【公開番号】特開2018-180874(P2018-180874A)
(43)【公開日】2018年11月15日
【審査請求日】2020年1月15日
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100103528
【弁理士】
【氏名又は名称】原田 一男
(72)【発明者】
【氏名】小▲柳▼ 佑介
(72)【発明者】
【氏名】井形 伸之
(72)【発明者】
【氏名】西野 文人
【審査官】 齊藤 貴孝
(56)【参考文献】
【文献】 特開2001−202283(JP,A)
【文献】 特開2009−075757(JP,A)
【文献】 特開2010−015202(JP,A)
【文献】 国際公開第2008/142791(WO,A1)
【文献】 特開2012−181786(JP,A)
【文献】 特開2011−215912(JP,A)
【文献】 米国特許出願公開第2007/0011183(US,A1)
【文献】 南野 朋之、外3名,blogの自動収集と監視,情報処理学会研究報告,日本,社団法人情報処理学会,2004年03月05日,第2004巻,第23号,p.129〜136
【文献】 廣嶋 伸章、外3名,文書の記述内容に関連する日時表現の抽出,言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD−ROM],日本,言語処理学会,2011年03月10日,p.762〜765
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
(57)【特許請求の範囲】
【請求項1】
コンピュータに、
項目名および項目値のセットを複数含む表を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、前記複数のセットに含まれる少なくとも前記項目値の各々に対応付けて記憶装置に格納する、
処理を実行させる日時情報抽出プログラム。
【請求項2】
前記第2の日時情報は、前記表の記述範囲に含まれ且つ前記表の説明を記述するためのタグで囲まれた日時情報である、
請求項1記載の日時情報抽出プログラム。
【請求項3】
前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ所定の文字または所定の文字列が付加された日時情報である、
請求項1記載の日時情報抽出プログラム。
【請求項4】
前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ前記表を記述するための表タグと同じ階層のタグに囲まれた日時情報、または、前記表の記述範囲に含まれ且つ前記表タグより下の階層のタグに囲まれた日時情報である、
請求項1記載の日時情報抽出プログラム。
【請求項5】
前記コンピュータに、
前記データにおける最初の所定タグまたは最後の前記所定タグに含まれ且つ前記データの発行日時を示す第3の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第3の日時情報を、前記複数のセットに含まれる少なくとも前記項目値の各々に対応付けて前記記憶装置に格納する、
請求項1乃至4のいずれか1つ記載の日時情報抽出プログラム。
【請求項6】
前記コンピュータに、
前記データのヘッダに含まれ且つ前記データの更新日時を示す第4の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第4の日時情報を、前記複数のセットに含まれる少なくとも前記項目値の各々に対応付けて前記記憶装置に格納する、
請求項1乃至4のいずれか1つ記載の日時情報抽出プログラム。
【請求項7】
前記コンピュータに、
前記データの取得日時を示す第5の日時情報を取得する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第5の日時情報を、前記複数のセットに含まれる少なくとも前記項目値の各々に対応付けて前記記憶装置に格納する、
請求項1乃至4のいずれか1つ記載の日時情報抽出プログラム。
【請求項8】
前記所定範囲は、所定個数のタグを含む範囲である、
請求項1乃至7のいずれか1つ記載の日時情報抽出プログラム。
【請求項9】
コンピュータが、
項目名および項目値のセットを複数含む表を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、前記複数のセットに含まれる少なくとも前記項目値の各々に対応付けて記憶装置に格納する、
処理を実行する日時情報抽出方法。
【請求項10】
項目名および項目値のセットを複数含む表を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出する抽出部と、
前記抽出部により抽出された前記第1の日時情報または前記第2の日時情報を、前記複数のセットに含まれる少なくとも前記項目値の各々に対応付けて記憶装置に格納する格納処理部と、
を有する日時情報抽出装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、日時情報の抽出技術に関する。
【背景技術】
【0002】
様々な情報源(例えば、ウェブページやデータベース等)から収集された情報が、企業分析、研究戦略の立案あるいはデータ統合等に利用されている。収集される情報の中には、時間の経過によって値が変化する情報(例えば、従業員数および売上等)が含まれることがあり、このような情報を利用する場合には、どの時点の情報であるかを特定しておくことが重要である。
【0003】
例えば或る文献は、ウェブニュースからトピックの時刻を抽出する技術を開示する。
【0004】
但し、ウェブページのデータには表の形式で記述されたデータが含まれる場合がある。上記技術は、ニュースなどの文章のデータを対象とした技術であり、ウェブページ上に表の形式で記述されたデータに含まれる値がいつの時点の値であるか決定することには適していない。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Xujian Zhao、Peiquan Jin、Lihua Yue、"Discovering topic time from web news"、Information Processing & Management、平成27年11月、第51巻、第6号、pp.869−890、ISSN 0306−4573
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、1つの側面では、表に含まれる値がいつの時点の値であるかを決定できるようにするための技術を提供することである。
【課題を解決するための手段】
【0007】
一態様に係る日時情報抽出方法は、表の項目名および項目値を含むデータから、項目名または項目値に付加された第1の日時情報、または、第1の日時情報以外の第2の日時情報であって、表の記述範囲または表の記述範囲の直前或いは直後の所定範囲に含まれる第2の日時情報を抽出し、抽出した第1の日時情報または第2の日時情報を、少なくとも項目値に対応付けて記憶装置に格納する処理を含む。
【発明の効果】
【0008】
1つの側面では、表に含まれる値がいつの時点の値であるかを決定できるようになる。
【図面の簡単な説明】
【0009】
図1図1は、ネットワーク構成を示す図である。
図2図2は、情報処理装置の機能ブロック図である。
図3図3は、ウェブページのデータの一例を示す図である。
図4図4は、tableタグで囲まれた部分の詳細を示す図である。
図5図5は、ウェブページのデータをブラウザで表示した場合の表示例を示す図である。
図6図6は、抽出データテーブルの一例を示す図である。
図7図7は、表関係テーブルの一例を示す図である。
図8図8は、ページ関係テーブルの一例を示す図である。
図9図9は、抽出部が実行する処理の処理フローを示す図である。
図10図10は、ページデータテーブルに格納されるデータの一例を示す図である。
図11図11は、所定のルールについて説明するための図である。
図12図12は、所定のルールについて説明するための図である。
図13図13は、所定のルールについて説明するための図である。
図14図14は、所定のルールについて説明するための図である。
図15図15は、所定のルールについて説明するための図である。
図16図16は、所定のルールについて説明するための図である。
図17図17は、所定のルールについて説明するための図である。
図18図18は、表テーブルの一例を示す図である。
図19図19は、抽出部が実行する処理の処理フローを示す図である。
図20図20は、記事発行に関する日時情報の抽出について説明するための図である。
図21図21は、ページデータテーブルに格納されるデータの一例を示す図である。
図22図22は、結果テーブルに格納されるデータの一例を示す図である。
図23図23は、判定部が実行する処理の処理フローを示す図である。
図24図24は、情報対象日時の決定を説明するための図である。
図25図25は、情報対象日時の決定を説明するための図である。
図26図26は、情報対象日時の決定を説明するための図である。
図27図27は、情報対象日時の決定を説明するための図である。
図28図28は、情報対象日時の決定を説明するための図である。
図29図29は、生成部が実行する処理の処理フローを示す図である。
図30図30は、時系列データの一例を示す図である。
図31図31は、時系列データを基にして生成されたグラフの一例を示す図である。
図32図32は、コンピュータの機能ブロック図である。
【発明を実施するための形態】
【0010】
図1は、本実施の形態のネットワーク構成を示す図である。本実施の形態の主要な処理を実行する情報処理装置1は、例えばインターネットであるネットワーク3に接続される。情報処理装置1は、ネットワーク3に接続された装置からウェブページのデータを受信し、ウェブページのデータに対して処理を実行する。
【0011】
図2は、情報処理装置1の機能ブロック図である。情報処理装置1は、データ処理部101と、抽出部103と、判定部105と、生成部107と、ページデータ格納部111と、処理データ格納部113とを含む。
【0012】
データ処理部101、抽出部103、判定部105および生成部107は、例えば図32におけるメモリ2501に格納されたプログラムが図32におけるCPU(Central Processing Unit)2503により実行されることで実現される。ページデータ格納部111および処理データ格納部113は、例えばメモリ2501又はHDD(Hard Disk Drive)2505に設けられる。
【0013】
ページデータ格納部111には、ネットワーク3に接続された装置から受信したウェブページのデータが格納される。データ処理部101は、ページデータ格納部111に格納されているデータを用いて処理を実行し、処理結果を処理データ格納部113に格納する。抽出部103は、ページデータ格納部111に格納されているデータ及びデータ処理部101による処理の結果を用いて処理を実行し、処理結果を処理データ格納部113に格納する。判定部105は、抽出部103による処理の結果を用いて処理を実行し、処理結果を処理データ格納部113に格納する。生成部107は、判定部105による処理の結果を用いて時系列データを生成し、生成した時系列データを処理データ格納部113に格納する。
【0014】
図3は、ページデータ格納部111に格納されるウェブページのデータの一例を示す図である。図3の例においては、ウェブページのデータはHTML(HyperText Markup Language)で記述されている。また、図3の例においては、日時情報「2016年5月30日」と日時情報「2016年6月1日」とが含まれている。また、ページデータ格納部111には、ウェブページのデータを取得した際におけるHTTP(HyperText Transfer Protocol)レスポンスヘッダが格納される。
【0015】
図4は、図3に示したウェブページのデータのうちtableタグで囲まれた部分の詳細を示す図である。図4の例においては、4行の表が定義されており、項目名「社名」および項目値「○△□株式会社」と、項目名「所在地」および項目値「神奈川県川崎市・・・」と、項目名「代表者」および項目値「代表取締役社長 田中太郎」と、項目名「資本金」および項目値「3246億円(2016年3月末時点)」とが含まれる。項目値「3246億円(2016年3月末時点)」には日時情報が含まれる。
【0016】
図5は、図3及び図4に示したデータをブラウザで表示した場合の表示例を示す図である。
【0017】
図6は、データ処理部101の処理によって処理データ格納部113に格納される抽出データテーブルの一例を示す図である。図6の例では、各項目名に付与されるデータID(IDentifier)と、項目名と、項目値と、情報対象日時とが格納される。情報対象日時とは、項目値がいつの時点の値であるかを示す日時情報である。但し、データ処理部101の処理においては、情報対象日時の欄には日時情報が格納されない。
【0018】
図7は、データ処理部101の処理によって処理データ格納部113に格納される表関係テーブルの一例を示す図である。図7の例では、データIDと、各表に付与される表IDとが格納される。
【0019】
図8は、データ処理部101の処理によって処理データ格納部113に格納されるページ関係テーブルの一例を示す図である。図8の例では、表IDと、各ウェブページに付与されるウェブページIDとが格納される。
【0020】
次に、図9乃至図31を用いて、情報処理装置1が実行する処理を説明する。
【0021】
まず、図9乃至図22を用いて、抽出部103が実行する処理を説明する。
【0022】
抽出部103は、ページデータ格納部111に格納されているウェブページのデータを取得した際におけるHTTPレスポンスヘッダ及びHTMLファイルをページデータ格納部111から読み出す。また、抽出部103は、HTMLヘッダに含まれる、HTMLファイルの取得日時の情報をページデータ格納部111から読み出す(図9:ステップS1)。抽出部103は、読み出した取得日時の情報、ウェブページID及びウェブページのURL(Uniform Resource Locator)を処理データ格納部113におけるページデータテーブルに格納する。
【0023】
図10は、ページデータテーブルに格納されるデータの一例を示す図である。図10の例では、ウェブページIDと、記事発行日時の情報と、更新日時の情報と、URLと、取得日時の情報とが格納される。ステップS1の処理の時点においては、記事発行日時の情報と更新日時の情報とは格納されない。
【0024】
抽出部103は、ステップS1において読み出したHTMLファイルから、表記述部分Ti(i=1,2,...,N)を抽出する(ステップS3)。本実施の形態において、表記述部分とはHTMLファイルのうちtableタグで囲まれた部分のことである。NはHTMLファイルに含まれる表の数である。
【0025】
抽出部103は、表を表す番号である変数iに1を設定する(ステップS5)。
【0026】
抽出部103は、i≦Nが成立するか判定する(ステップS7)。
【0027】
i≦Nが成立する場合(ステップS7:Yesルート)、抽出部103は、表記述部分Tiから項目名と項目値とのセットを抽出する(ステップS9)。表記述部分Tiに項目名と項目値とのセットが複数含まれる場合には、複数のセットがステップS9において抽出される。
【0028】
抽出部103は、項目名と項目値とのセットに日時情報が付加されている場合には日時情報を抽出し、抽出した日時情報を抽出データテーブル(図6)の情報対象日時の欄に格納する(ステップS11)。例えば図4に示した例においては、項目値に日時情報が付加されているので、日時情報「2016年3月末」(或いは「2016年3月31日」)が情報対象日時の欄に格納される。図4の例においては項目値に日時情報が付加されているが、項目名に日時情報が付加されていてもよい。また、図4の例においては「時点」という文字列が日時情報に付加されているが、このような文字列(他には「現在」および「付け」など)が付加されていなくてもよい。
【0029】
抽出部103は、ステップS1において読み出したHTMLファイルから、所定のルールに従って表記述部分Tiについての日時情報(以下、表日時と呼ぶ)を抽出する(ステップS13)。
【0030】
図11乃至図17を用いて、所定のルールについて説明する。
【0031】
図11は、captionタグを用いて日時情報が記述される例を示す図である。本実施の形態においては、図11に示すように、tableタグで囲まれた範囲に含まれるcaptionタグを用いて日時情報が記述されている場合、その日時情報が日時情報として抽出される。図11の例においては、日時情報「2016年3月末」が抽出される。
【0032】
また、tableタグのn個前までのタグで囲まれた日時情報またはtableタグのn個後までのタグで囲まれた日時情報が抽出されてもよい。図12の例においては、tableタグの2個前までのタグで囲まれた日時情報「2016年3月末」が抽出されている。ここで、各行において最も外側にあるタグの内側に有るタグは除外してカウントされる。例えば図12の例においては、spanタグはカウントの対象から除外される。
【0033】
また、或る一つのタグのみを含むタグを無いものとして取り扱ってもよい。例えば図13(a)においては、divタグの内側にはtableタグのみが含まれている。このような場合には、図13(b)に示すように、divタグが存在しないものとして取り扱ってもよい。また、例えば図14(a)においては、divタグの内側にはpタグのみが含まれている。このような場合には、図14(b)に示すように、divタグが存在しないものとして取り扱ってもよい。
【0034】
また、日時情報の抽出の対象となるタグを、tableタグと同じ階層のタグまたはtableタグの階層より下の階層のタグに限定してもよい。例えば図15においては、n=2であり且つtableタグの後にあるpタグはtableタグと同じ階層に有るので、tableタグの後にあるpタグで囲まれた日時情報「2016年3月末」が抽出される。divタグより外側のタグは、日時情報の抽出対象から除外される。また、hタグ以降のタグは同じ階層のタグであると見做すようにしてもよい。この場合、図16において、tableタグの直前に有るh3タグおよびtableタグの直後に有るpタグをtableタグと同じ階層のタグであると見做すことができる。よって、tableタグの直前に有るh3タグで囲まれた日時情報「2016年3月末」は抽出される。一方、最後に有るpタグはtableタグと同じ階層のタグではないので、そのpタグで囲まれた日時情報「2016年3月末」は抽出されない。
【0035】
また、特定のタグを無いものとして取り扱ってもよい。例えば図17(a)においてはpタグの内側にbrタグが含まれているが、図17(b)に示すように、brタグが無いものとして処理を行ってもよい。なお、図17の例においてはbrタグが示されているが、brタグ以外のタグに対して同様の取り扱いをしてもよい。
【0036】
また、特定の文字又は文字列が付加された日時情報のみを抽出の対象としてもよい。特定の文字又は文字列とは、例えば、「現在」、「時点」あるいは「付け」等である。
【0037】
なお、以上のルールは一例であるので、これらのルール以外のルールを使用してもよい。また、図11乃至図17を用いて説明した各ルールの優先度を情報処理装置1の操作者の指定等に基づき設定してもよい。
【0038】
図9の説明に戻り、抽出部103は、処理データ格納部113に表テーブルのエントリを生成する。そして、抽出部103は、ステップS13において抽出した日時情報を、生成したエントリの表日時の欄に格納する(ステップS15)。
【0039】
図18は、表テーブルの一例を示す図である。図18の例では、表IDと、表日時の情報とが格納される。なお、ステップS13において日時情報が抽出されなかった場合には表日時の欄は空である。
【0040】
抽出部103は、iを1インクリメントする(ステップS17)。そして処理はステップS7に戻る。
【0041】
一方、i≦Nが成立しない場合(ステップS7:Noルート)、処理は端子Aを介して図19のステップS19に移行する。
【0042】
図19の説明に移行し、抽出部103は、ステップS1において読み出したHTMLファイルから、記事発行に関する日時情報を抽出する(図19:ステップS19)。ウェブページが発行された日時はウェブページの最初又は最後に記述されることがあるので、本実施の形態においては、HTMLファイルにおける最初或いは最後のdivタグ或いはpタグ等で囲まれた日付情報が抽出される。例えば図20の例においては、HTMLファイルにおいて最初に登場するpタグで囲まれた日時情報が抽出される。
【0043】
抽出部103は、ステップS1において読み出したHTTPレスポンスヘッダから更新に関する日時情報を抽出する(ステップS21)。ウェブページが更新された日時の情報はHTTPレスポンスヘッダに含まれることがあるので、HTTPレスポンスヘッダから日時情報が抽出される。但し、抽出された日時情報が示す日時が後述の取得日時より後である場合或いは同時である場合、本実施の形態においてはステップS21の処理は失敗であると判定される。
【0044】
抽出部103は、ステップS19において記事発行に関する日時情報の抽出に成功したか判定する(ステップS25)。
【0045】
ステップS19において記事発行に関する日時情報の抽出に失敗した場合(ステップS25:Noルート)、処理はステップS29に移行する。
【0046】
一方、ステップS19において記事発行に関する日時情報の抽出に成功した場合(ステップS25:Yesルート)、抽出部103は、以下の処理を実行する。具体的には、抽出部103は、記事発行に関する日時情報を、ページデータテーブル(図10)の記事発行日時の欄に格納する(ステップS27)。
【0047】
抽出部103は、ページデータテーブル(図10)に格納されている取得日時は、ステップS21において抽出された日時情報が示す日時より後であるか判定する(ステップS29)。
【0048】
ページデータテーブル(図10)に格納されている取得日時は、ステップS21において抽出された日時情報が示す日時より後ではない場合(ステップS29:Noルート)、処理はステップS35に移行する。
【0049】
一方、ページデータテーブル(図10)に格納されている取得日時は、ステップS21において抽出された日時情報が示す日時より後である場合(ステップS29:Yesルート)、抽出部103は、以下の処理を実行する。具体的には、抽出部103は、更新に関する日時情報を、ページデータテーブル(図10)の更新日時の欄に格納する(ステップS31)。
【0050】
図21は、ステップS31までの処理によりページデータテーブルに格納されるデータの一例を示す図である。図10と比較すると、記事発行日時の情報と、更新日時の情報とが新たにページデータテーブルに格納されている。
【0051】
抽出部103は、処理データ格納部113に格納された結果テーブルに結果データを生成する(ステップS35)。ステップS35において、結果データは、処理対象のHTMLファイルに含まれる表の各項目値について生成される。
【0052】
図22は、結果テーブルに格納されるデータの一例を示す図である。図22の例では、データIDと、表日時の情報と、記事発行日時の情報と、更新日時の情報と、取得日時の情報とが格納される。表日時の欄には、表テーブル(図18)に格納されている表日時の情報が格納される。記事発行日時の欄には、ページデータテーブル(図21)に格納されている記事発行日時の情報が格納される。更新日時の欄には、ページデータテーブル(図21)に格納されている更新日時の情報が格納される。取得日時の欄には、ページデータテーブル(図21)に格納されている取得日時の情報が格納される。なお、データIDに対応する表IDは表関係テーブル(図7)によって特定される。また、データIDに対応するウェブページIDは、表関係テーブル(図7)及びページ関係テーブル(図8)によって特定される。
【0053】
以上のような処理を実行すれば、表の各項目値について、関係する日時情報を対応付けることができるようになる。
【0054】
次に、図23乃至図28を用いて、判定部105が実行する処理を説明する。本処理は、抽出部103が処理を実行した後に実行される。なお、以下では抽出データテーブル(図6)における1つのデータIDについて処理を実行する例を示すが、抽出データテーブル(図6)における各データIDについて処理を実行してもよい。
【0055】
判定部105は、抽出データテーブル(図6)に格納されているデータIDの中から1つデータIDを特定する(図23:ステップS41)。
【0056】
判定部105は、抽出データテーブル(図6)から、ステップS41において特定したデータIDを有するエントリを読み出す(ステップS43)。
【0057】
判定部105は、ステップS43において読み出したエントリに情報対象日時が含まれるか判定する(ステップS45)。
【0058】
ステップS43において読み出したエントリに情報対象日時の情報が含まれる場合(ステップS45:Yesルート)、処理は終了する。
【0059】
一方、ステップS43において読み出したエントリに情報対象日時が含まれない場合(ステップS45:Noルート)、判定部105は、ステップS41において特定したデータIDを有する結果データを結果テーブル(図22)から読み出す。そして、判定部105は、読み出した結果データに表日時の情報が含まれるか判定する(ステップS47)。
【0060】
読み出した結果データに表日時の情報が含まれる場合(ステップS47:Yesルート)、判定部105は、読み出した結果データに含まれる表日時の情報を、抽出データテーブル(図6)における情報対象日時の欄に格納する(ステップS49)。そして処理は終了する。
【0061】
一方、読み出した結果データに表日時の情報が含まれない場合(ステップS47:Noルート)、判定部105は、読み出した結果データに記事発行日時の情報が含まれるか判定する(ステップS51)。
【0062】
読み出した結果データに記事発行日時の情報が含まれる場合(ステップS51:Yesルート)、判定部105は、読み出した結果データに含まれる記事発行日時の情報を、抽出データテーブル(図6)における情報対象日時の欄に格納する(ステップS53)。そして処理は終了する。
【0063】
一方、読み出した結果データに記事発行日時の情報が含まれない場合(ステップS51:Noルート)、判定部105は、読み出した結果データに更新日時の情報が含まれるか判定する(ステップS55)。
【0064】
読み出した結果データに更新日時の情報が含まれる場合(ステップS55:Yesルート)、判定部105は、読み出した結果データに含まれる更新日時の情報を、抽出データテーブル(図6)における情報対象日時の欄に格納する(ステップS57)。そして処理は終了する。一方、読み出した結果データに更新日時の情報が含まれない場合(ステップS55:Noルート)、判定部105は、読み出した結果データに含まれる取得日時の情報を、抽出データテーブル(図6)における情報対象日時の欄に格納する(ステップS59)。そして処理は終了する。
【0065】
以上のような処理を実行すれば、表の項目値に対応付けられた日時情報のうちその項目値について適切な日時情報を決めることができるようになる。
【0066】
図24乃至図28を用いて、情報対象日時の決定をより具体的に説明する。
【0067】
例えば、図24に示すようなデータが結果テーブルに格納されているとする。このケースでは、データID「1234567890−0−0」について表日時の情報が格納されているので、抽出データテーブルに情報対象日時の情報が格納されていなければ、図25に示すように、情報対象日時の欄に表日時「2016/06/01」が格納される。
【0068】
例えば、図26に示すようなデータが結果テーブルに格納されているとする。このケースでは、データID「1234567890−0−0」について表日時の情報が格納されておらず、記事発行日時の情報が格納されている。従って、抽出データテーブルに情報対象日時の情報が格納されていなければ、図27に示すように、情報対象日時の欄に記事発行日時「2016/05/30」が格納される。
【0069】
例えば、図28に示すようなデータが結果テーブルに格納されているとする。このケースでは、データID「1234567890−0−3」について表日時の情報が格納されている。しかし、図27に示したように、データID「1234567890−0−3」について情報対象日時「2016/03/31」が格納されている場合、情報対象日時の欄に表日時の情報は格納されない。
【0070】
次に、図29乃至図31を用いて、生成部107が実行する処理を説明する。
【0071】
情報処理装置1が複数の情報源から取得したウェブページのデータに対して上で述べた処理を実行したとする。そして、生成部107は、例えば情報処理装置1の操作者が指定したデータIDについての項目値および情報対象日時を、抽出データテーブルから読み出す(図29:ステップS61)。
【0072】
生成部107は、ステップS61において読み出した項目値および情報対象日時を含む時系列データを生成し(ステップS63)、処理データ格納部113に格納する。そして処理は終了する。
【0073】
図30は、ステップS63において生成される時系列データの一例を示す図である。図30の例では、項目名「資本金」について、4つの時点における項目値が格納される。
【0074】
図31は、図30に示した時系列データを基にして生成されたグラフの一例を示す図である。情報処理装置1の操作者は、このようなグラフを確認することで企業分析等を行うことができる。
【0075】
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置1の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
【0076】
また、上で説明した各テーブルの構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
【0077】
なお、上で述べた情報処理装置1は、コンピュータ装置であって、図32に示すように、メモリ2501とCPU2503とHDD2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
【0078】
以上述べた本発明の実施の形態をまとめると、以下のようになる。
【0079】
本実施の形態の第1の態様に係る日時情報抽出方法は、(A)表の項目名および項目値を含むデータから、項目名または項目値に付加された第1の日時情報、または、第1の日時情報以外の第2の日時情報であって、表の記述範囲または表の記述範囲の直前或いは直後の所定範囲に含まれる第2の日時情報を抽出し、(B)抽出した第1の日時情報または第2の日時情報を、少なくとも項目値に対応付けて記憶装置に格納する処理を含む。
【0080】
表に含まれる項目値がいつの時点の値であるかを決定できるようになる。
【0081】
また、第2の日時情報は、表の記述範囲に含まれ且つ表の説明を記述するためのタグで囲まれた日時情報であってもよい。
【0082】
例えばHTMLのCAPTIONタグ等を利用して第2の日時情報を抽出できるようになる。
【0083】
また、第2の日時情報は、表の記述範囲の直前或いは直後の所定範囲に含まれ且つ所定の文字または所定の文字列が付加された日時情報であってもよい。
【0084】
例えば「時点」、「現在」及び「付」等の文字または文字列を利用して第2の日時情報を抽出できるようになる。
【0085】
また、第2の日時情報は、表の記述範囲の直前或いは直後の所定範囲に含まれ且つ表を記述するための表タグと同じ階層のタグに囲まれた日時情報、または、表の記述範囲に含まれ且つ表タグより下の階層のタグに囲まれた日時情報であってもよい。
【0086】
日時情報の記述のされ方の特徴を利用して抽出を行うことができるようになる。
【0087】
また、本日時情報抽出方法は、(C)データにおける最初の所定タグまたは最後の所定タグに含まれ且つデータの発行日時を示す第3の日時情報を抽出する処理をさらに含んでもよい。そして、記憶装置に格納する処理において、(b1)抽出した第1の日時情報、第2の日時情報または第3の日時情報を、少なくとも項目値に対応付けて記憶装置に格納してもよい。
【0088】
項目値がデータの発行日時の時点における値であるとみなすことができる場合が有るので、上で述べたような処理を実行すれば、適切な日時情報を項目値に対応付けられるようになる。
【0089】
また、本日時情報抽出方法は、(D)データのヘッダに含まれ且つデータの更新日時を示す第4の日時情報を抽出する処理をさらに含んでもよい。そして、記憶装置に格納する処理において、(b2)抽出した第1の日時情報、第2の日時情報または第4の日時情報を、少なくとも項目値に対応付けて記憶装置に格納してもよい。
【0090】
項目値がデータの更新日時の時点における値であるとみなすことができる場合が有るので、上で述べたような処理を実行すれば、適切な日時情報を項目値に対応付けられるようになる。
【0091】
また、本日時情報抽出方法は、(E)データの取得日時を示す第5の日時情報を取得する処理をさらに含んでもよい。そして、記憶装置に格納する処理において、(b3)抽出した第1の日時情報、第2の日時情報または第5の日時情報を、少なくとも項目値に対応付けて記憶装置に格納してもよい。
【0092】
項目値がデータの取得日時の時点における値であるとみなすことができる場合が有るので、上で述べたような処理を実行すれば、適切な日時情報を項目値に対応付けられるようになる。
【0093】
また、所定範囲は、所定個数のタグを含む範囲であってもよい。
【0094】
タグが使用されたデータにおける範囲を適切に定めることができるようになる。
【0095】
また、データは、ウェブページのデータであってもよい。
【0096】
本実施の形態の第2の態様に係る日時情報抽出装置は、(F)表の項目名および項目値を含むデータから、項目名または項目値に付加された第1の日時情報、または、第1の日時情報以外の第2の日時情報であって、表の記述範囲または表の記述範囲の直前或いは直後の所定範囲に含まれる第2の日時情報を抽出する抽出部(実施の形態における抽出部103は抽出部の一例である)と、(G)抽出部により抽出された第1の日時情報または第2の日時情報を、少なくとも項目値に対応付けて記憶装置に格納する格納処理部(実施の形態における判定部105は格納処理部の一例である)とを有する。
【0097】
なお、上記方法による処理をプロセッサに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
【0098】
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0099】
(付記1)
コンピュータに、
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する、
処理を実行させる日時情報抽出プログラム。
【0100】
(付記2)
前記第2の日時情報は、前記表の記述範囲に含まれ且つ前記表の説明を記述するためのタグで囲まれた日時情報である、
付記1記載の日時情報抽出プログラム。
【0101】
(付記3)
前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ所定の文字または所定の文字列が付加された日時情報である、
付記1記載の日時情報抽出プログラム。
【0102】
(付記4)
前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ前記表を記述するための表タグと同じ階層のタグに囲まれた日時情報、または、前記表の記述範囲に含まれ且つ前記表タグより下の階層のタグに囲まれた日時情報である、
付記1記載の日時情報抽出プログラム。
【0103】
(付記5)
前記コンピュータに、
前記データにおける最初の所定タグまたは最後の前記所定タグに含まれ且つ前記データの発行日時を示す第3の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第3の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
付記1乃至4のいずれか1つ記載の日時情報抽出プログラム。
【0104】
(付記6)
前記コンピュータに、
前記データのヘッダに含まれ且つ前記データの更新日時を示す第4の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第4の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
付記1乃至4のいずれか1つ記載の日時情報抽出プログラム。
【0105】
(付記7)
前記コンピュータに、
前記データの取得日時を示す第5の日時情報を取得する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第5の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
付記1乃至4のいずれか1つ記載の日時情報抽出プログラム。
【0106】
(付記8)
前記所定範囲は、所定個数のタグを含む範囲である、
付記1乃至7のいずれか1つ記載の日時情報抽出プログラム。
【0107】
(付記9)
前記データは、ウェブページのデータである、
付記1乃至8のいずれか1つ記載の日時情報抽出プログラム。
【0108】
(付記10)
コンピュータが、
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する、
処理を実行する日時情報抽出方法。
【0109】
(付記11)
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出する抽出部と、
前記抽出部により抽出された前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する格納処理部と、
を有する日時情報抽出装置。
【符号の説明】
【0110】
1 情報処理装置 101 データ処理部
103 抽出部 105 判定部
107 生成部 111 ページデータ格納部
113 処理データ格納部 3 ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32