IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-151293情報処理装置、検索システム、情報処理方法およびプログラム
<>
  • 特開-情報処理装置、検索システム、情報処理方法およびプログラム 図1
  • 特開-情報処理装置、検索システム、情報処理方法およびプログラム 図2
  • 特開-情報処理装置、検索システム、情報処理方法およびプログラム 図3
  • 特開-情報処理装置、検索システム、情報処理方法およびプログラム 図4
  • 特開-情報処理装置、検索システム、情報処理方法およびプログラム 図5
  • 特開-情報処理装置、検索システム、情報処理方法およびプログラム 図6
  • 特開-情報処理装置、検索システム、情報処理方法およびプログラム 図7
  • 特開-情報処理装置、検索システム、情報処理方法およびプログラム 図8
  • 特開-情報処理装置、検索システム、情報処理方法およびプログラム 図9
  • 特開-情報処理装置、検索システム、情報処理方法およびプログラム 図10
  • 特開-情報処理装置、検索システム、情報処理方法およびプログラム 図11
  • 特開-情報処理装置、検索システム、情報処理方法およびプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023151293
(43)【公開日】2023-10-16
(54)【発明の名称】情報処理装置、検索システム、情報処理方法およびプログラム
(51)【国際特許分類】
   G06F 16/335 20190101AFI20231005BHJP
【FI】
G06F16/335
【審査請求】未請求
【請求項の数】18
【出願形態】OL
(21)【出願番号】P 2022060839
(22)【出願日】2022-03-31
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】尾崎 花奈
(72)【発明者】
【氏名】十河 泰弘
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175HB02
(57)【要約】
【課題】様々な種類の単位や範囲表現に対応した検索を行うための数値表現を、より効率的に抽出することができる情報処理装置等を提供する。
【解決手段】文書から、数値の範囲を表現する文言である範囲表現を抽出する範囲表現抽出部11と、抽出した範囲表現を用いて、数値を表す記載である数値表現を抽出するルールである数値表現抽出ルールを作成するとともに、数値表現抽出ルールを用いて、文書の中の単位を集めた辞書である単位辞書を作成する単位収集部12および単位名寄せ部13と、数値表現抽出ルールおよび単位辞書を用いて、文書から数値表現を抽出する数値表現抽出部14と、を備える情報処理装置10。
【選択図】図3
【特許請求の範囲】
【請求項1】
文書から、数値の範囲を表現する文言である範囲表現を抽出する範囲表現抽出部と、
抽出した前記範囲表現を用いて、数値を表す記載である数値表現を抽出するルールである数値表現抽出ルールを作成するとともに、当該数値表現抽出ルールを用いて、前記文書の中の単位を集めた辞書である単位辞書を作成する単位辞書作成部と、
前記数値表現抽出ルールおよび前記単位辞書を用いて、前記文書から前記数値表現を抽出する数値表現抽出部と、
を備える情報処理装置。
【請求項2】
前記範囲表現抽出部は、前記範囲表現の候補となる範囲表現候補を抽出し、当該範囲表現候補に対し当該範囲表現の重要性および当該範囲表現である蓋然性の少なくとも一方を表す範囲表現スコアを求め、当該範囲表現スコアを基に当該範囲表現候補の中から前記範囲表現を選択することで、当該範囲表現を抽出する請求項1に記載の情報処理装置。
【請求項3】
前記範囲表現スコアは、前記範囲表現候補の出現位置および当該範囲表現候補の出現頻度の少なくとも一方を基に算出される請求項2に記載の情報処理装置。
【請求項4】
前記範囲表現候補の出現位置は、数値と前記範囲表現候補との距離である請求項3に記載の情報処理装置。
【請求項5】
前記単位辞書作成部は、前記数値表現抽出ルールを用いて単位の候補である単位候補を収集し、
収集した前記単位候補を基に、前記単位辞書を作成する請求項1に記載の情報処理装置。
【請求項6】
前記単位辞書作成部は、前記数値表現抽出ルールを用いて数値の直後に出現する表記を前記単位候補として収集する請求項5に記載の情報処理装置。
【請求項7】
前記単位辞書作成部は、単位の重要性および単位である蓋然性の少なくとも一方を表す単位スコアを算出し、当該単位スコアを基に前記単位候補の中から単位を選択する請求項5に記載の情報処理装置。
【請求項8】
前記単位辞書作成部は、前記単位スコアを機械学習モデルを使用して算出する請求項7に記載の情報処理装置。
【請求項9】
前記単位辞書作成部は、同じ次元を有する単位に一の属性を付与し、当該属性と当該属性を有する単位とを関連付けて前記単位辞書を作成する請求項1に記載の情報処理装置。
【請求項10】
前記単位辞書作成部は、分散表現および知識表現の少なくとも一方を用いて、前記属性と当該属性を有する単位とを関連付ける請求項9に記載の情報処理装置。
【請求項11】
前記単位辞書作成部は、単位を基準となる単位である基準単位に変換する変換関係をさらに作成する請求項9に記載の情報処理装置。
【請求項12】
前記数値表現抽出部は、前記数値表現が表す数値の範囲の単位が前記基準単位と異なるときは、前記変換関係により当該数値を当該基準単位に合わせ変換する請求項11に記載の情報処理装置。
【請求項13】
前記数値表現抽出部は、前記数値表現と前記数値の範囲とを関連付けた数値表現一覧テーブルを作成する請求項1に記載の情報処理装置。
【請求項14】
前記数値表現一覧テーブルは、前記数値表現および数値の範囲とともに、単位および当該数値表現が記載された文書中の箇所を関連付けたものである請求項13に記載の情報処理装置。
【請求項15】
文書から、数値を表す記載である数値表現を抽出する情報処理装置と、
前記情報処理装置が抽出した前記数値表現を基に、ユーザが数値を検索する検索装置と、
を備え、
前記情報処理装置は、
前記文書から、数値の範囲を表現する文言である範囲表現を抽出する範囲表現抽出部と、
抽出した前記範囲表現を用いて、前記数値表現を抽出するルールである数値表現抽出ルールを作成するとともに、当該数値表現抽出ルールを用いて、前記文書の中の単位を集めた辞書である単位辞書を作成する単位辞書作成部と、
前記数値表現抽出ルールおよび前記単位辞書を用いて、前記文書から前記数値表現を抽出する数値表現抽出部と、
を備える検索システム。
【請求項16】
前記検索装置は、ユーザが前記数値を検索する際に入力した単位が前記単位辞書に含まれるときは数値の検索を行い、含まれないときは数値の検索を行わない請求項15に記載の検索システム。
【請求項17】
文書から、数値の範囲を表現する文言である範囲表現を抽出し、
抽出した前記範囲表現を用いて、数値を表す記載である数値表現を抽出するルールである数値表現抽出ルールを作成するとともに、当該数値表現抽出ルールを用いて、前記文書の中の単位を集めた辞書である単位辞書を作成し、
前記数値表現抽出ルールおよび前記単位辞書を用いて、前記文書から前記数値表現を抽出する、
情報処理方法。
【請求項18】
コンピュータに、
文書から、数値の範囲を表現する文言である範囲表現を抽出する範囲表現抽出機能と、
抽出した前記範囲表現を用いて、数値を表す記載である数値表現を抽出するルールである数値表現抽出ルールを作成するとともに、当該数値表現抽出ルールを用いて、前記文書の中の単位を集めた辞書である単位辞書を作成する単位辞書作成機能と、
前記数値表現抽出ルールおよび前記単位辞書を用いて、前記文書から前記数値表現を抽出する数値表現抽出機能と、
を実現させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、検索システム、情報処理方法、プログラムに関する。本発明は、特に、文書の中の数値の検索を行うのに適した数値情報データベースを作成することができる情報処理装置に関する。
【背景技術】
【0002】
文書中の情報を検索するときに、数値を用いた検索を行うときがある。例えば、文書が特許文献や論文等の場合、情報として数値が大きな意味を有することから、数値を用いた検索を行うのは有用である。
数値を用いた検索を行う際に、様々な種類の単位や数値の範囲を表現する文言である範囲表現に対応したいというニーズが存在する。単位は、例えば、一般的に広く用いられているSI単位系だけでなく、他の単位系も含む。また、範囲表現は、例えば、「~」、「乃至」、「以上」、「以下」等の文言が該当する。
【0003】
特許文献1では、文書から数値と数値の単位を抽出し、数値を属性値とする属性名を抽出し、抽出した数値を属性名毎に予め定められた尺度に対応付け、尺度の数値に変換することで、文書中から数値表現を抽出する技術を開示している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2010-117797
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、単位や範囲表現は、文書により記載が異なっていたり、単位に関する専門知識が必要となる場合がある。その結果、様々な種類の単位や範囲表現に対応して、数値の検索を行う際に使用する数値情報データベースを構築するのに多大な労力や費用を要することがあった。
本発明は、様々な種類の単位や範囲表現に対応した検索を行うための数値表現を、より効率的に抽出することができる情報処理装置等を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記の課題を解決するため本発明は、文書から、数値の範囲を表現する文言である範囲表現を抽出する範囲表現抽出部と、抽出した範囲表現を用いて、数値を表す記載である数値表現を抽出するルールである数値表現抽出ルールを作成するとともに、数値表現抽出ルールを用いて、文書の中の単位を集めた辞書である単位辞書を作成する単位辞書作成部と、数値表現抽出ルールおよび単位辞書を用いて、文書から数値表現を抽出する数値表現抽出部と、を備える情報処理装置を提供するものである。
【0007】
また、本発明は、文書から、数値を表す記載である数値表現を抽出する情報処理装置と、情報処理装置が抽出した数値表現を基に、ユーザが数値を検索する検索装置と、を備え、情報処理装置は、文書から、数値の範囲を表現する文言である範囲表現を抽出する範囲表現抽出部と、抽出した範囲表現を用いて、数値表現を抽出するルールである数値表現抽出ルールを作成するとともに、数値表現抽出ルールを用いて、文書の中の単位を集めた辞書である単位辞書を作成する単位辞書作成部と、数値表現抽出ルールおよび単位辞書を用いて、文書から数値表現を抽出する数値表現抽出部と、
を備える検索システムを提供するものである。
【0008】
さらに、本発明は、文書から、数値の範囲を表現する文言である範囲表現を抽出し、抽出した範囲表現を用いて、数値を表す記載である数値表現を抽出するルールである数値表現抽出ルールを作成するとともに、数値表現抽出ルールを用いて、文書の中の単位を集めた辞書である単位辞書を作成し、数値表現抽出ルールおよび単位辞書を用いて、文書から数値表現を抽出する、情報処理方法を提供するものである。
【0009】
またさらに、本発明は、コンピュータに、文書から、数値の範囲を表現する文言である範囲表現を抽出する範囲表現抽出機能と、抽出した範囲表現を用いて、数値を表す記載である数値表現を抽出するルールである数値表現抽出ルールを作成するとともに、数値表現抽出ルールを用いて、文書の中の単位を集めた辞書である単位辞書を作成する単位辞書作成機能と、数値表現抽出ルールおよび単位辞書を用いて、文書から数値表現を抽出する数値表現抽出機能と、を実現させるためのプログラムを提供するものである。
【発明の効果】
【0010】
様々な種類の単位や範囲表現に対応した検索を行うための数値表現を、より効率的に抽出することができる情報処理装置等を提供することができる。
【図面の簡単な説明】
【0011】
図1】本実施の形態における検索システムの構成例を示す図である。
図2】情報処理装置および検索装置のハードウェア構成について示した図である。
図3】検索システムの機能構成例について示したブロック図である。
図4】情報処理装置の動作を説明したフローチャートである。
図5】範囲表現一覧テーブルについて示した図である。
図6】単位集合テーブルについて示した図である。
図7】単位辞書テーブルについて示した図である。
図8】単位変換テーブルについて示した図である。
図9】数値表現一覧テーブルについて示した図である。
図10】検索装置の動作を説明したフローチャートである。
図11】検索条件の入力を行うダイアログについて示した図である。
図12】出力部にて表示される検索結果を示した図である。
【発明を実施するための形態】
【0012】
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
【0013】
<検索システム1全体の説明>
図1は、本実施の形態における検索システム1の構成例を示す図である。
図示するように本実施の形態の検索システム1は、数値の検索を行うための数値情報データベースを作成する情報処理装置10と、ユーザが数値の検索を行う検索装置20a、20b、20cと、数値情報データベースを記憶する記憶装置30と、がネットワーク40を介し接続されている。
【0014】
情報処理装置10は、検索システム1の全体の管理をするサーバコンピュータである。情報処理装置10は、例えば、クラウド上で検索のサービスを提供するクラウドサーバとすることができる。詳しくは後述するが、情報処理装置10は、文書から、数値を表す記載である数値表現を抽出し、数値情報データベースを構築する。
ここで「文書」とは、例えば、文字情報や画像情報を電子化した電子文書である。この文書は、検索システム1で扱うことができるものであれば、形式およびデータ構造等について特に限られるものではない。
また、図示する情報処理装置10は、1つであるが、複数のサーバコンピュータによりその機能を実現してもよい。
【0015】
検索装置20a、20b、20cは、ユーザが数値を検索する装置である。
検索装置20a、20b、20cは、例えば、汎用のパーソナルコンピュータ(PC)、モバイルコンピュータ、携帯電話、スマートフォン、タブレット等のコンピュータ装置である。そして、検索装置20a、20b、20cは、OS(Operating System)による管理下において、各種アプリケーションソフトウェアを動作させる。そして、検索装置20a、20b、20cは、ユーザから検索条件を取得し、文書の中の数値について検索する。なお、以下、検索装置20a、20b、20cを区別しない場合は、単に「検索装置20」と言うことがある。また、図1では、検索装置20は、3つ示しているが、その数は、1つ以上であればいくつであってもよい。
【0016】
記憶装置30は、数値情報データベースを記憶する。記憶装置30は、数値表現の一覧である数値表現一覧テーブルを記憶する。数値表現一覧テーブルの具体的内容について詳しくは後述する。また、記憶装置30は、数値表現一覧テーブルを作成する際に作成した種々の情報を記憶する。記憶装置30は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)等のストレージを備える装置である。
また、図示する記憶装置30は、1つであるが、複数の記憶装置30によりその機能を実現してもよい。
【0017】
ネットワーク40は、情報処理装置10、検索装置20および記憶装置30の間の情報通信に用いられる通信手段であり、例えば、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)である。データ通信に用いられる通信回線は、有線か無線かを問わず、これらを併用してもよい。また、情報処理装置10、検索装置20および記憶装置30は、ゲートウェイ装置やルータ等の中継装置を用い、複数のネットワークや通信回線を介して接続されてもよい。
【0018】
<検索システム1の動作の概略説明>
検索システム1では、まず、情報処理装置10が、複数の文書を対象にした数値表現一覧テーブルを作成し、これを含む数値情報データベースを構築する。記憶装置30は、数値情報データベースを記憶する。
ユーザが文書に含まれる数値を検索しようとする場合、ユーザは、検索装置20を使用し、検索条件として検索したい数値の値や範囲の入力を行う。
検索装置20は、記憶装置30を参照し、検索条件に合致する文書および該当箇所を抽出して検索結果とする。そして、検索装置20では、ユーザに対し検索結果を表示する。
【0019】
<情報処理装置10および検索装置20の構成>
図2は、情報処理装置10および検索装置20のハードウェア構成について示した図である。なお、情報処理装置10および検索装置20のハードウェア構成は、同じであるので、情報処理装置10を例にとり、説明を行う。
図示する情報処理装置10は、プログラムの実行を通じて各部を制御するCPU(Central Processing Unit)101と、画像その他の情報を表示するディスプレイ102と、文字などを入力するキーボード103と、ポインティングデバイスであるタッチパッド104と、外部装置との通信に用いられる通信モジュール105と、システムデータや内部データが記憶される内部メモリ106と、補助記憶装置としての外部メモリ107等を有している。
【0020】
CPU101は、OS(基本ソフトウェア)やアプリケーションソフトウェア(応用ソフトウェア)等のプログラムを実行する。
本実施の形態の場合、内部メモリ106と外部メモリ107は、半導体メモリである。内部メモリ206は、BIOS(Basic Input Output System)等が記憶されたROM(Read Only Memory)と、主記憶装置として用いられるRAM(Random Access Memory)とを有している。CPU101と内部メモリ106はコンピュータを構成する。CPU101は、RAMをプログラムの作業スペースとして使用する。外部メモリ107は、HDDやSSD等のストレージであり、ファームウェアやアプリケーションソフトウェア等が記憶される。
【0021】
ディスプレイ102は、例えば、液晶ディスプレイや有機EL(Electro Luminescent)ディスプレイで構成される。ディスプレイ102(すなわち表示面)には画像その他の情報が表示される。
【0022】
キーボード103は、ユーザが文字等を入力する際に使用する入力デバイスである。
タッチパッド104も入力デバイスであり、ディスプレイ102に表示されるカーソルの移動や画面のスクロールなどの際に用いられる、なお、タッチパッド104の代わりにマウスやトラックボール等であってもよい。
通信モジュール105は、外部との通信を行うための通信インタフェースである。
【0023】
<検索システム1の機能構成の説明>
次に、検索システム1の機能構成について説明する。
図3は、検索システム1の機能構成例について示したブロック図である。
ここでは、情報処理装置10、検索装置20および記憶装置30のそれぞれの機能構成例について示すとともに、データのやり取りを矢印にて図示している。なお、ここでは、検索システム1が有する種々の機能のうち、本実施の形態に関する機能について選択して図示している。
以下、情報処理装置10、検索装置20および記憶装置30のそれぞれについて、順次説明する。
【0024】
情報処理装置10は、文書から、数値を表す記載である数値表現を抽出し、数値表現一覧テーブルを作成する。情報処理装置10は、範囲表現抽出部11と、単位収集部12と、単位名寄せ部13と、数値表現抽出部14と、を有する。
範囲表現抽出部11は、文書の中から、数値の検索の対象とする文書から範囲表現となり得る表記(範囲表現の候補となる記載)を範囲候補として抽出する。「範囲表現」は、上述したように、文書の中の数値の範囲を表現する文言である。
さらに、範囲表現抽出部11は、範囲候補に対し範囲表現スコアを求める。「範囲表現スコア」は、範囲表現の重要性および範囲表現である蓋然性の少なくとも一方を表す数である。
そして、範囲表現抽出部11は、範囲表現スコアを基に範囲表現候補の中から範囲表現を選択する。これにより範囲表現抽出部11は、文書から範囲表現を抽出することができる。範囲表現抽出部11は、範囲表現スコアを、範囲表現一覧記憶部31に記憶させる。
【0025】
単位収集部12は、範囲表現抽出部11によって抽出された範囲表現を基に、数値表現抽出ルールを作成する。「数値表現」は、文書の中で数値を表す記載である。また、「数値表現抽出ルール」は、文書の中から、数値表現を抽出するルールである。
さらに、単位収集部12は、数値表現抽出ルールを用いて単位の候補である単位候補を収集する。「単位候補」は、文書の中で、単位となり得る表記(単位の候補となる記載)である。
そして、単位収集部12は、単位候補に対し単位スコアを求める。「単位スコア」は、単位の重要性および単位である蓋然性の少なくとも一方を表す数である。単位収集部12は、単位スコアを、単位集合記憶部32に記憶させる。
【0026】
単位名寄せ部13は、単位スコアを基に単位候補の中から単位を選択し、文書の中の単位を集めた辞書である単位辞書を作成する。このとき、単位名寄せ部13は、同一の意味を有する単位をまとめ上げ、単位辞書を生成する。即ち、単位名寄せ部13は、単位収集部12によって収集された単位を、同一の意味を有する単位毎に分類する。ここで、同一の意味を持つ単位としては、「mm」「m」「メートル」など同一単位を複数の表記で表しているもの、「ポンド」「グラム」のように単位の種類は違うが同一属性を表している単位などが考えられる。なおこれは、単位名寄せ部13は、同じ次元を有する単位に一の属性を付与する、と言うこともできる。単位名寄せ部13は、単位辞書を、単位辞書記憶部33に記憶させる。
【0027】
なお、単位収集部12および単位名寄せ部13は、単位辞書を作成する単位辞書作成部の一例であると捉えることができる。単位辞書作成部では、数値表現抽出ルールを用いて単位の候補である単位候補を収集し、収集した単位候補を基に、単位辞書を作成する、と言うことができる。
【0028】
数値表現抽出部14は、範囲表現抽出部11によって作成された数値表現抽出ルール、および単位名寄せ部13によって生成された単位辞書を用いて、文書から数値表現を抽出する。このとき数値表現抽出部14は、単位を基準単位に変換するとともに、数値の変換が必要な場合は数値の変換も行う。ここで、「基準単位」とは、単位辞書において基準となる単位として定義された単位である。基準単位は、数値の検索の際に、基準となる単位である。例えば、距離についての基準単位は、「m」とし、圧力についての基準単位は、「Pa(パスカル)」とする。この場合、数値表現抽出部14は、「m」に対して接頭辞を有する「mm」や「cm」の場合は、接頭辞を除去した「m」に変換する。また、数値表現抽出部14は、「バール」や「mmHg」は、「Pa」に変換する。
さらに、数値表現抽出部14は、抽出した数値表現を基に、数値表現一覧テーブルを作成する。数値表現一覧テーブルは、詳しくは後述するが、数値表現と数値の範囲とを関連付けたテーブルである。数値表現抽出部14は、数値表現を含む数値表現一覧テーブルを、数値表現一覧記憶部34に記憶させる。なおここで、「数値の範囲」は、数値情報であり、「0以上1以下」等に例示される数値の下限や上限などを表す場合のみならず、「1」等に例示される1点の数値だけである場合も含む。さらに、「数値の範囲」は、「0」、「1」、「2」のように離散的な複数の数値により表される場合も含む。
【0029】
検索装置20は、入力部21と、単位変換部22と、数値表現検索部23と、出力部24と、を有する。
入力部21は、文書の検索条件となるキーワード、数値、数値範囲、単位等を取り込み、取り込んだ情報を単位変換部22に与える。
単位変換部22は、入力部21によって与えられた数値、数値範囲、単位等が与えられると、情報処理装置10の単位名寄せ部13によって作成された単位辞書を用いて、単位を基準単位に変換する。また、単位変換部22は、数値の変換が必要な場合は数値の変換も行う。
数値表現検索部23は、情報処理装置10の数値表現抽出部14によって抽出された数値表現一覧テーブルを基に、単位変換部22によって変換された単位と数値及び数値範囲と一致する、または数値範囲が重複する数値表現を有する文書を検索する。数値表現検索部23は、検索結果を数値検索結果記憶部35に記憶させる。
出力部24は、数値表現検索部23によって検索された文書を出力する。この際、表示方法については様々な方法が考えられる。例えば、検索で一致した数値表現部分を下線やハイライトで強調するといった方法が考えられる。
【0030】
記憶装置30は、範囲表現一覧記憶部31と、単位集合記憶部32と、単位辞書記憶部33と、数値表現一覧記憶部34と、数値検索結果記憶部35と、を有する。
範囲表現一覧記憶部31は、文書から抽出された範囲表現となり得る表記(記載)を、範囲表現スコアと共に記憶する。
単位集合記憶部32は、文書から抽出された単位となり得る単位候補を、単位スコアと共に記憶する。
単位辞書記憶部33は、同一の属性を有する単位毎に整理された単位辞書を記憶する。
数値表現一覧記憶部34は、文書から抽出された単位を基準単位に変換し、さらにテキストとしての数値表現から実数値に変換された数値表現一覧テーブルを記憶する。
数値検索結果記憶部35は、利用者が検索した数値と数値範囲及び単位に合致した文書または文書を表すタイトルや番号と、該当する数値表現またはその出現箇所を記憶する。
【0031】
<情報処理装置10の動作の詳細説明>
次に、数値表現一覧テーブルを作成する情報処理装置10の動作について詳細説明を行う。
図4は、情報処理装置10の動作を説明したフローチャートである。
はじめに、情報処理装置10は、数値の検索の対象とする文書を取得し、範囲表現抽出部11および単位収集部12に与える(ステップ101)。
この文書は、1つ以上であれば足りるが、通常は複数の文書を対象とする。文書は、例えば、数値情報データベースを構築する作業者が文書のデータを入力することで、範囲表現抽出部11および単位収集部12に与える。また、紙等からなる書籍をスキャナ等で読み込み、読み込んだ読込データをOCR(Optical Character Reader)等によりテキストデータ化して、範囲表現抽出部11および単位収集部12に与えることもできる。
【0032】
範囲表現抽出部11は、文書の形態素解析を行い、数値の周囲に出現する単語を範囲表現候補として抽出する(ステップ102)。
範囲表現候補は、例えば、数値の前後に記載された予め定められた数の単語とすることができる。この数は、例えば、3単語である。具体的には、「水酸化ナトリウムを少なくとも1.0mol以上投入し、続いて、…」といった文章の場合、範囲表現抽出部11は、数値である「1.0」の前に出現する、「水酸化ナトリウム」、「を」、「少なくとも」の3単語を、範囲表現候補とする。また、範囲表現抽出部11は、「1.0」の後に出現する、「mol」、「以上」、「投入」の3単語を範囲表現候補として抽出する。
【0033】
次に、範囲表現抽出部11は、ステップ102で抽出した範囲表現候補の中から範囲表現を選択する(ステップ103)。詳しくは、それぞれの範囲表現候補に対し範囲表現らしさを計算する。そして、一定の閾値以上の範囲表現スコアを有する範囲表現候補を範囲表現とする。範囲表現は、範囲表現スコアと共に範囲表現一覧記憶部31に保存される。
範囲表現スコアは、上述したように、範囲表現の重要性および範囲表現である蓋然性の少なくとも一方を表す数として求められる。範囲表現スコアは、例えば、数値と単語との距離や単語の頻度情報を用いて算出できる。
【0034】
数値と単語との距離の計算としては、例えば、以下に挙げる(1)~(3)の性質を使用することができる。
(1)数値と数値の間にある単語は「から」など2つの数値の関係を表す範囲表現である可能性が高い。
(2)数値の直後にある単語は範囲表現ではなく、単位である可能性が高い。
(3)数値の2単語後に出現する単語は、「以上」や「以下」など上限や下限を表す範囲表現である可能性が高い。
これは、範囲表現スコアは、例えば、範囲表現候補の出現位置および範囲表現候補の出現頻度の少なくとも一方を基に算出される、と言うこともできる。この場合、範囲表現候補の出現位置は、数値と範囲表現候補である単語との距離である。
【0035】
単語の頻度情報を使用するのは、例えば、検索の対象とするような同一種類の文書集合内においては、ある特定の範囲表現が繰り返し使われやすいという性質があるためである。よって、範囲表現抽出部11は、ある特定の範囲表現が繰り返し現れ、出現頻度が高い単語に対して高い範囲表現スコアを付与する。
【0036】
数値と単語との距離や単語の頻度情報を利用することにより、例えば、(範囲表現スコア)=(Pos_score)×(Frequency_score)といった式により、範囲表現スコアを計算することができる。
このうち、「Pos_score」は、数値と単語との距離の計算として、上記性質(1)~(3)を利用して算出される。例えば、性質(1)と性質(3)を有する単語には1.0、性質(2)を有する単語の場合には0.1、それ以外の場合は0.3といったように、数値と単語との距離が有する性質毎に、スコアを付与する。ここで、ステップ102で抽出した範囲表現候補において、同一表現が複数回出現する場合には、すべての表現においてスコアの平均を取るとする。例えば、「乃至」という表現が全て数値と数値の間に出現する場合、「乃至」のPos_scoreは1.0となる。つまり、「距離」は、数値と単語との関係の性質を利用することで求めることができ、これらの間の関係を数値化したものである。
また、「Frequency_score」は、各範囲表現候補の対象文書全体での出現頻度である。例えば、「乃至」という表現が抽出対象とする文書全体で20回出現するのであれば、「乃至」のFrequency_scoreは20となる。
よって、例えば、「乃至」の範囲表現スコアは、(Pos_score)×(Frequency_score)=1.0×20=20となる。
【0037】
範囲表現スコアは、例えば、最大値が1、最小値が0になるように正規化される。
図5は、範囲表現一覧テーブルT1について示した図である。
図5に示したように、本実施の形態では、範囲表現スコアを、範囲表現として抽出された単語毎に並べた範囲表現一覧テーブルT1とする。
この範囲表現一覧テーブルT1は、範囲表現一覧記憶部31に記憶される。この場合、必要に応じ、範囲表現スコアに閾値を設けて、閾値以上の範囲表現候補を範囲表現とする。例えば、閾値を「0.5」と設定し、0.5以上の範囲表現スコアを有する範囲表現候補を範囲表現と定める。
本実施の形態では、範囲表現スコアを使用することで、範囲表現の抽出の精度がより向上する。また、範囲表現を抽出する範囲がより広範になる。
【0038】
図4に戻り、次に、単位収集部12は、ステップ103で抽出した範囲表現を基に、数値表現抽出ルールを作成する(ステップ104)。数値表現抽出ルールは、数値を抽出する際のルールであり、正規表現等によって表すことが可能である。例えば、数値表現が、「1から2」「1~2」「1乃至2」といった記載であれば、数値表現抽出ルールは、'[0-90-9](から|~|乃至)[0-90-9]'のような形で定義することができる。また、ここで作成された数値表現抽出ルールは、後のステップ108で、文書から数値表現を抽出する際にも用いる。
【0039】
次に、単位収集部12は、ステップ104で作成した数値表現抽出ルールを用いて単位の候補である単位候補を収集する(ステップ105)。単位収集部12は、例えば、数値の直後に出現する表記を単位候補として収集する。具体的には、例えば、ステップ104で作成された数値表現抽出ルールを用いて、文書から数値の直右に出現する単位候補を抽出する。例えば、「3~4cm」、「1.0±0.1mm」、「2乃至3モル」といった記載が存在した場合、数値表現抽出ルールを用いて「3~4」「1.0±0.1」「2乃至3」のみを抽出することができるので、直右の「cm」「mm」「モル」を単位候補として抽出することができる。例えば、「cm」や「mm」といった記号単位を抽出する場合は、単位収集部12は、数値表現抽出ルールを用いて抽出された数値部分の直右に出現するアルファベットの連続を単位候補とする。また、例えば、「モル」や「リットル」のような日本語単位を抽出する場合は、単位収集部12は、数値表現抽出ルールを用いて抽出された数値部分の直右の単語を、形態素解析等の既存の方法で取得して単位候補とすることが考えられる。
【0040】
次に、単位収集部12は、ステップ105で収集された単位候補が単位であるかどうか判定を行う(ステップ106)。単位収集部12は、この判定を、単位スコアを用いて行う。
単位候補の中には、実際には単位ではないもの、例えば、装置名や化学式名の一部である場合が存在する。例えば、文書に、「5分あけてSi2Cl5Hを20g、0.12mol)を滴下した。」のような記載があった場合、単位は、「分」、「g」、「mol」である。一方、この記載では、化学式「Si2Cl5H」のような、単位に類似する記載も混在する。
【0041】
単位であるかどうかの判定には、サポートベクターマシンやロジスティック回帰などの既存の機械学習モデルを適用することができる。機械学習モデルに入力する特徴量としては、抽出した単位候補の周囲単語の文字種(平仮名、カタカナ、アルファベット等の情報)、単語の品詞、分散表現(周囲のコンテキストを用いて単語を高次元のベクトルで表したもの)等が考えられる。出力は、単位の重要性および単位である蓋然性の少なくとも一方を表す単位スコアとすることができる。この場合、単位としての重要度を表す単位スコアとして、1か0を出力することができる。これは、単位であるか否かを表す。即ち、「1」は、単位であることを表し、「0」は、単位でないことを表す。また、単位である蓋然性を表す単位スコアとして、単位である確率を出力することもできる。
【0042】
単位スコアは、例えば、最大値が1、最小値が0になるように正規化される。
図6は、単位集合テーブルT2について示した図である。
図6に示したように、本実施の形態では、単位スコアを、単位候補として収集された単語毎に並べた単位集合テーブルT2とする。
この単位集合テーブルT2は、単位集合記憶部32に記憶される。そして、必要に応じ、単位スコアに閾値を設けて、閾値以上の単位候補を単位とする。例えば、閾値を「0.5」と設定し、0.5以上の単位スコアを有する単位候補を単位と定める。
【0043】
図4に戻り、次に、単位名寄せ部13が、ステップ106によって求められた単位スコアから実際に単位として判定された単位集合を、同一の意味を持つ単位毎に分類し、単位辞書を作成する(ステップ107)。
【0044】
表記が異なるが同一の属性を表す単位は、以下の(1)~(3)のように分類できる。
(1)「mm」と「m」など接頭辞が付いている単位。
(2)「h」と「hour」など同一単位であるが表記ゆれがある単位。
(3)「lb」と「g」など同一属性を表すが種類が違う単位。
【0045】
分類(1)の接頭辞が付いている単位については、予めSI単位の接頭辞となる表記(「ミリ」や「m」、「キロ」や「k」など)を定義しておき、先頭に接頭辞が付く場合には、接頭辞を除去した単位を基準単位として辞書に登録する。また、接頭辞付きの単位を基準単位に変換する場合、数値の変換が必要になってくるため、単位変換表として、「mm→0.001m」といったような変換の定義を用意する。
【0046】
分類(2)の同一単位であるが表記ゆれがある単位、および分類(3)の同一属性を表すが種類が違う単位については、様々な場合が存在する。よって、編集距離など文字列同士の類似度のみで同一属性の単位であるかを判定するのは難しい。そのため、単位表記が有する意味表現を、単語の分散表現を用いて表し、各単位の分散表現同士の類似度を測定し、閾値以上であれば同一属性の単位であると特定する方法が考えられる。単語の分散表現の獲得には、word2vecやGloveなど既存の方法を用いることが考えられる。なお、正確に単位の分散表現を獲得するために、数値の検索対象の文書集合と同一種類の文書集合で学習された分散表現ベクトルを使うことが望ましい。
【0047】
また、分類(3)については、単位系が異なるために、単位を変換して基準単位に変換することが必要である。単位変換に伴う数値の変換式の獲得方法については、知識表現を利用できる。「知識表現」とは、対象の認識や理解の内容、あるいは世界把握の結果である知識を形式的に表現したものである。知識表現としては、DBpediaなどの構造化された知識データを用いることができる。そしてこれにより、関連のある単位とその単位への変換式を求めることが可能である。例えば、質量の非SI単位であるポンド(lb)に関して、DBpediaには、「1常用ポンドは正確に0.453.59237キログラムと定義されている。」と記載がある。この記載から、「0.453.59237キログラム」を抽出することで、「1ポンド(lb)→453.59237グラム(g)」という基準単位「g」への変換式を立てることができる。
【0048】
単位名寄せ部13は、以上のようにして、いわば単位の名寄せを行う。そして、上記のようにして名寄せが行われた単位について、同一の意味を持つ単位毎に属性名(時間、質量等)を特定する。例えば、「h、hour、hr、時間」といった単位に対しては「時間」、「g、グラム、t、トン、lb、ポンド」といった単位に対しては「質量」といった形で同一種類の単位毎に1つの属性名でラベル付けを行う。
属性名の特定方法としては、これらの単位の直前に表れる単語を抽出し、その単語を属性名とすることができる。例えば、「質量は、1~5g程度とする。」という文があった場合、数値表現「1~5g」に係る形で存在する「質量は、」から「質量」という名詞を抽出することで、単位「g」の属性を特定することができる。
【0049】
属性を特定するもう1つの方法として、単位変換においても利用可能であったDBpediaを使う方法が考えられる。例えば、「g」という単位に関してDBpediaには、「グラム(仏:gramme、英:gram、記号:g)は、質量の単位である。」と記載がある。この記載から、「質量」という属性名を抽出することで、単位「g」の属性を特定することができる。
【0050】
本実施の形態では、単位スコアを使用することで、単位に類似する記載を排除しやすくなり、単位の選択の精度がより向上する。また、単位スコアは、数値として出力することができるので、数値情報データベースを構築する作業者が、この数値を基に単位でないものをノイズとして削除することもできる。
【0051】
図7は、単位辞書テーブルT3について示した図である。
図7に示したように、本実施の形態では、単位を、属性名とその属性に属する単位とを並べた単位辞書テーブルT3とする。単位辞書テーブルT3は、単位辞書の一例である。
この単位辞書テーブルT3は、単位辞書記憶部33に記憶される。そして、必要に応じ、属性名の修正や、単位の追加を行う。
また、上記で求めた単位の変換式(1ポンド(lb)→453.59237グラム(g)など)は、図8のような単位変換テーブルT4で表すことが可能である。この単位変換テーブルT4は、単位辞書記憶部33に記憶される。単位変換テーブルT4は、単位を、基準となる単位である基準単位に変換する変換関係の一例である。また、単位変換テーブルT4は、ある量体系に含まれる量とその量体系の基本量との関係を、基本量と対応する因数の冪乗の積として示す表現である量の次元の一例である。
なお、以上説明した単位名寄せ部13が行う処理は、同じ次元を有する単位に一の属性を付与する、と言うこともできる。このとき、単位名寄せ部13は、分散表現および知識表現の少なくとも一方を用いて、属性とこの属性を有する単位とを関連付ける。そして、単位名寄せ部13は、属性と属性を有する単位とを関連付けて単位辞書テーブルT3に例示される単位辞書を作成する。
これにより、様々な種類の単位に対応できる。
【0052】
再び図4に戻り、次に、数値表現抽出部14が、ステップ107で作成された単位辞書とステップ104で作成された数値表現抽出ルールを適用することで、文書から数値表現を抽出する(ステップ108)。
数値表現の抽出の手順としては、まず、数値表現抽出部14は、文書の中から数値表現抽出ルールに合致した数値表現を抽出する。例えば、「1.0±0.1mm」といった表現の場合は、「1.0±0.1」が抽出される。次に、「1.0±0.1」の直右に出現する文字列が、単位辞書に記載されている単位と一致するかどうかを見る。「mm」という単位が単位辞書に登録されていた場合、「1.0±0.1mm」は1つの数値表現とみなされ、抽出される。
【0053】
さらに、数値表現抽出部14は、ステップ108で抽出された文字列からなる数値表現を、実数値を伴う数値情報へと変換する(ステップ109)。
例えば、「1.0±0.1mm」が抽出された場合、「最小値:0.9、最大値:1.1、単位:mm」のように、文字列として記載されていた数値表現に対して、最小値、最大値にそれぞれ対応する実数値を入れることで、実数としての計算が可能になる。これによって、数値の検索を行う際に、本文を参照することなく、実数値に変換済みの数値情報と比較することで、検索を行うことができる。
【0054】
そして、数値表現抽出部14は、ステップ109で実数値に変換された数値表現の単位を基準単位に変換する(ステップ110)。即ち、数値表現抽出部14は、数値表現が表す数値の範囲の単位が基準単位と異なるときは、単位変換テーブルT4により数値を基準単位に合わせ変換する。
これにより数値表現一覧テーブルを作成することができる。
例えば、「1.0±0.1mm」が抽出された場合、ステップ109で「最小値:0.9、最大値:1.1、単位:mm」と実数値に変換され、さらに長さを表す接頭辞付きSI単位である「mm」は「m」に変換される。この際、ステップ107で作成された単位変換テーブルT4により、「1mm→0.001m」という変換関係が成り立つので、「最小値:0.9、最大値:1.1、単位:mm」は、「最小値:0.0009、最大値0.0011、単位:m」のように変換される。なお、ステップ108で抽出した数値表現における単位が、基準単位であった場合、ステップ110は省略することができる。
【0055】
図9は、数値表現一覧テーブルT5について示した図である。
実数値への変換と基準単位への変換を終えた数値表現は、図9に示したようなデータ構造を有する数値表現一覧テーブルT5で表すことが可能である。
図示する数値表現一覧テーブルT5は、1列目に文書番号、2列目に数値表現が含まれる文(数値表現が記載されていた箇所に特殊文字を代入したもの)、3列目に抽出した数値表現、および4列目に基準単位に変換済みの単位が含まれる。
さらに、数値表現一覧テーブルT5には、5列目以降に、数値表現を実数値へ変換した数値情報が含まれる。具体的には、数値情報は、最小(≧)、最大(≦)、下限(>)、上限(<)のように分けて記載することができる。よって、5列目以降は、数値の範囲を表す欄と言うこともできる。数値情報としては、例えば、「少なくとも」という表現を伴う数値表現は、数値情報として、「最小」の部分に該当数値を入れることで表現可能である。他にも、例えば、「未満」という表現を伴う数値表現は、数値情報として、「上限」の部分に該当数値を入れることで表現可能である。数値表現一覧テーブルT5は、数値表現一覧記憶部34に保存され、数値の検索処理において用いられる。
ここで挙げた数値表現一覧テーブルT5は一例に過ぎないが、数値表現一覧テーブルT5として、数値表現および数値の範囲とともに、単位および数値表現が記載された文書中の箇所を関連付けたものとしている。
このような数値表現一覧テーブルT5にすることで、検索装置20にてユーザが文書の中の数値を検索するときに、より広範な範囲表現の入力に対応することができる。
【0056】
<検索装置20の動作の詳細説明>
次に、ユーザが数値の検索を行う検索装置20の動作について詳細説明を行う。
図10は、検索装置20の動作を説明したフローチャートである。
まず、入力部21は、数値情報と単位を伴う検索条件の入力を受け付ける(ステップ201)。
検索条件の入力は、例えば、図11のようなユーザインタフェースを通じて行われる。ここでは、検索装置20の出力部24にダイアログD1が表示され、ユーザがダイアログD1を使用して検索条件の入力を行う場合を示している。
ダイアログD1では、「キーワード検索」の欄に、検索したいキーワードを入力することが可能である。また、「数値検索」の欄に、数値と単位を入力することが可能である。このとき、数値範囲を検索したい場合には,範囲(下)と範囲(上)を選択することができる。範囲(下)と範囲(上)にはそれぞれ、「以上、より大きい」「以下、未満」といった表現を予め定義し、ドロップダウン形式で選択できる。ここで入力された数値と単位と数値範囲が、以降の数値検索処理ステップにおいて用いられる。
【0057】
次に、単位変換部22は、ステップ201で入力された単位が単位辞書に登録済みかどうかを判定する(ステップ202)。登録済みである場合(ステップ202でYes)、次のステップ203の処理へ進む。一方、登録されていない場合(ステップ202でNo)、情報処理装置10によって、文書から予め抽出していない単位であり、数値表現一覧テーブルT5(図9参照)を検索しても見つからない単位である。よって、「定義されている単位ではない」等と表示して、処理を終了させる。
つまり、検索装置20は、ユーザが数値を検索する際に入力した単位が単位辞書に含まれるときは数値の検索を行い、含まれないときは数値の検索を行わない。このようにサポートされていない単位については、検索を行わないことで、ユーザに対し、サポートされている単位への検索条件の変更を促すことができる。
【0058】
さらに、単位変換部22は、ステップ201で入力された単位について、予め定義した基準単位であるかどうかを判定する(ステップ203)。入力された単位が「m」や「g」などの基準単位である場合(ステップ203でYes)、入力された数値情報を変換する必要はないため、次ステップのステップ204の処理を飛ばしてステップ205の処理に進む。入力された単位が「mm」や「ポンド」など基準単位でない場合(ステップ203でNo)、検索用に基準単位に変換する必要があるため、次のステップ204に進む。
【0059】
ステップ203において基準単位ではないと判定された単位については、単位辞書記憶部33に格納されている単位辞書と単位変換テーブルT4(図8参照)を用いて基準単位に変換する(ステップ204)。この際、「mm」から「m」や、「ポンド」から「g」など、単位の変化によって数値の変化も伴う場合には、単位変換テーブルT4を用いて数値も変換する。例えば、利用者の入力した数値が「10mbar」であり、圧力の基準単位を「Pa」としていた場合、単位変換テーブルT4を参照して、「1000Pa」と変換される。
【0060】
次に、数値表現検索部23は、ステップ204によって基準単位に変換された数値情報を、数値表現一覧テーブルT5を用いて、入力された単位と一致し、かつ、検索した数値と同値または数値範囲が重複する数値表現を特定する(ステップ205)。
例えば、基準単位変換済みの利用者の入力が、「100000Pa」であった場合、図9の数値表現一覧テーブルT5の例では、単位が「Pa」で、最大(≦)が「1200000」である文書番号1003の「12barまで」という数値表現が該当する。
他にも例えば、基準単位変換済みの利用者の入力が、「1.0mol以上2.0mоl以下」であった場合、図9の数値表現一覧テーブルT5の例では、単位が「mоl」で、値が「1.8」である文書番号1004の「1.8mоl」という数値表現が該当する。
このようにして検索で得られた結果は、検索で該当した文書または文書番号と、該当した数値表現またはその出現箇所として表現され、出力部24により、検索結果として表示画面に表示される。また、数値検索結果記憶部35に記憶される。
【0061】
図12は、出力部24にて表示される検索結果を示した図である。
ここでは、検索装置20の出力部24にダイアログD2が表示され、ダイアログD2に検索結果を表示した場合を示している。
ダイアログD2では、検索で該当した文書番号および該当した出現箇所を表示している。ここで該当した出現箇所の中の数値表現の記載部分を下線や太字で表すことで、該当箇所を明確に表示することが可能である。
【0062】
<効果の説明>
数値を検索する検索システムにおいては、予め文書中の数値表現を抽出し、文字列としての数値表現から実数値による数値情報に変換するとともに、単位(mm等)を基準単位(m等)に変換する操作を行い、数値情報データベースを構築する作業が作業者により行われる。また、検索の際には、ユーザが指定した数値や数値範囲、単位などの情報を、数値情報データベースと照らし合わせて検索を行う。
検索システムにおいては、広範な検索入力に対応し、かつ、文書中の広範な数値表現の表記(記載)に対応するため、様々な種類の単位(一般的に広く用いられているSI単位系だけでなく、他の単位系も含む)や数値の範囲表現(~、乃至、以上、以下等)に対応した検索システムを構築したいというニーズがある。しかしながら、単位を抽出するための単位辞書の構築と、数値表現抽出ルールを作成するための範囲表現の定義は、検索の対象とする文書によって表記が異なっていたり、単位に関する専門的な知識が必要なこともあるため非常にコストが高い。
【0063】
例えば、化学系の特許文献において、「質量%」「重量%」「重量ppm」といった単位が使われているが、これらの単位は一般的なSI単位系には含まれないため、これらの単位の定義には化学系特許特有の単位の知識を持っていることが前提である。また、例えば、単位の様々な表記の例として、長さを表す単位は、「メートル」「m」といったSI単位の他にも「インチ」「オームストロング」等の非SI系単位が存在する。このように同一の意味を持ちがなら種類の異なる単位が存在するため、これら全ての単位を予め定義することは、従来は困難であった。
【0064】
さらに、範囲表現においては、特許文献特有の表現として「乃至」「少なくとも」といった、日本語を用いて数値の範囲を表す表現が多数出現する。
例えば、特許文献では、「組成物中のA成分の含有量は100質量ppm以下であることが好ましく、10~50質量ppmがより好ましい。… その配合量は、通常5質量%以下であり、0.01~0.5質量%が好ましく、 … 加速電圧は800から900Vとなる条件で行われることを特徴とする。」のように記載されるときがある。この中で、「100質量ppm以下」、「10~50質量ppm」、「5質量%以下」、「0.01~0.5質量%」、「800から900V」などが範囲表現であるが、これらの広範な範囲表現を網羅することは、従来は困難であった。
【0065】
また、ユーザが検索する際に入力する検索条件は、例えば、数値と単位から構成される。具体的には、ユーザは、例えば、数値「4」と単位「cm」とを指定して検索を行う。この例は、「4cm」や「4センチメートル」といった表記について検索する場合が該当する。また、数値の範囲の記載を意味する数値表現も検索の対象としたい場合がある。この数値表現の例としては、例えば、数値の範囲として、1cm以上5cm以下を表す「1~5cm」といった例が挙げられる。即ち、検索条件は、より広範な範囲表現に対応することが望ましい。
【0066】
従来は、数値情報データベースを構築する作業者が文書中の範囲表現を判別し、範囲表現について抽出していたが、本実施の形態では、この処理をいわば自動的に行うことができる。そのため、範囲表現の抽出に要する労力や費用がより低減される。そしてその結果、様々な種類の単位や範囲表現に対応した検索を行うための数値表現をより効率的に抽出することができ、検索システム1の構築をより効率的に行うことができる。即ち、コストを削減できる。
【0067】
また、本実施の形態の情報処理装置10では、抽出される範囲表現をより広範とすることができるため、検索装置20にてユーザが文書の中の数値を検索するときに、より広範な範囲表現の入力に対応することができる。そして、本実施の形態の情報処理装置10では、上述した単位の名寄せを行うことで、抽出される範囲表現がさらに広範になるとともに様々な種類の単位に対応できる。また、本実施の形態の情報処理装置10では、文書に記載された範囲表現の抽出の精度が高い。
【0068】
なお、以上説明した検索システム1では、情報処理装置10、検索装置20、記憶装置30のそれぞれにより上述した処理を行っていたが、これらの中の一の装置が行う処理の一部または全てを他の装置で行うこともできる。例えば、情報処理装置10、検索装置20、記憶装置30を、1台のコンピュータ装置でまとめて行うことができる。また、情報処理装置10および記憶装置30を1台のサーバコンピュータなどのコンピュータ装置で行うこともできる。さらに、上述した例では、数値の検索は、検索装置20が行っていたが、情報処理装置10で行うようにしてもよい。
【0069】
そして、以上説明した検索システム1では、数値の検索を行う場合について説明したが、この機能に特化する必要はない。例えば、テキストや画像等を検索する一般の検索システムにおいて、数値の検索機能として以上説明した機能が利用できるようにしてもよい。
また、適用先として、本実施の形態で説明した検索システム1だけでなく、文書からの数値を伴う表現を抽出する情報抽出システムなど想定される。これらには、特許文献からの数値情報抽出システム、論文からの数値情報抽出システムが考えられる。また、数値表現抽出や数値検索の対象とする文書は、組織的に一元管理される文書に限定されず、インターネット上などで分散して存在する文書にも適用できる。
【0070】
<情報処理方法の説明>
ここで、図4のフローチャート等で説明を行った情報処理装置10が行う処理は、文書から、数値の範囲を表現する文言である範囲表現を抽出し、抽出した範囲表現を用いて、数値を表す記載である数値表現を抽出するルールである数値表現抽出ルールを作成するとともに、数値表現抽出ルールを用いて、文書の中の単位を集めた辞書である単位辞書を作成し、数値表現抽出ルールおよび単位辞書を用いて、文書から数値表現を抽出する、情報処理方法であると捉えることができる。
【0071】
<プログラムの説明>
また、以上説明を行った本実施の形態における情報処理装置10が行う処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、情報処理装置10に設けられたCPU等のプロセッサが、情報処理装置10の各機能を実現するプログラムを実行し、これらの各機能を実現させる。
【0072】
よって、本実施の形態で、情報処理装置10が行う処理は、コンピュータに、文書から、数値の範囲を表現する文言である範囲表現を抽出する範囲表現抽出機能と、抽出した範囲表現を用いて、数値を表す記載である数値表現を抽出するルールである数値表現抽出ルールを作成するとともに、数値表現抽出ルールを用いて、文書の中の単位を集めた辞書である単位辞書を作成する単位辞書作成機能と、数値表現抽出ルールおよび単位辞書を用いて、文書から数値表現を抽出する数値表現抽出機能と、を実現させるためのプログラムとして捉えることもできる。
【0073】
なお、本実施の形態を実現するプログラムは、通信手段により提供することはもちろん、CD-ROM等の記録媒体に格納して提供することも可能である。
【0074】
以上、本実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
【符号の説明】
【0075】
1…検索システム、10…情報処理装置、11…範囲表現抽出部、12…単位収集部、13…単位名寄せ部、14…数値表現抽出部、20…検索装置、30…記憶装置、T1…範囲表現一覧テーブル、T2…単位集合テーブル、T3…単位辞書テーブル、T4…単位変換テーブル、T5…数値表現一覧テーブル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12