特許7371989 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ｔｗｅｌＳ株式会社の特許一覧

特許7371989検索サーバー、検索システム、及び検索プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2023-10-23

(45)【発行日】2023-10-31

(54)【発明の名称】検索サーバー、検索システム、及び検索プログラム

(51)【国際特許分類】

G06F 16/9032 20190101AFI20231024BHJP

G06F 16/332 20190101ALI20231024BHJP

G06F 16/951 20190101ALI20231024BHJP

【ＦＩ】

G06F16/9032

G06F16/332

G06F16/951

【請求項の数】 18

(21)【出願番号】P 2022574495

(86)(22)【出願日】2022-03-28

(86)【国際出願番号】 JP2022014843

【審査請求日】2022-12-01

(73)【特許権者】

【識別番号】522469660

【氏名又は名称】ｔｗｅｌＳ株式会社

(74)【代理人】

【識別番号】100114627

【弁理士】

【氏名又は名称】有吉修一朗

(74)【代理人】

【識別番号】100182501

【弁理士】

【氏名又は名称】森田靖之

(74)【代理人】

【識別番号】100175271

【弁理士】

【氏名又は名称】筒井宣圭

(74)【代理人】

【識別番号】100190975

【弁理士】

【氏名又は名称】遠藤聡子

(72)【発明者】

【氏名】小嶋恒

【審査官】甲斐哲雄

(56)【参考文献】

【文献】特開２０１６－０７１４９５（ＪＰ，Ａ）

【文献】国際公開第２００７／１０５７５９（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

情報端末から、左辺、関係演算子、右辺の順に表記される数式を含む検索ワードを受信する受信部と、
ネットワーク上及び前記情報端末内を巡回し、前記ネットワーク上のＷｅｂページ及び前記情報端末内のファイルを含むデジタル情報を収集する情報収集部と、
該情報収集部により収集された前記デジタル情報が登録されたデータベースと、
前記受信部で受信した前記検索ワードに含まれる数式を第１の数式と定義するとともに、該第１の数式を所定の規則に従って移項処理して該第１の数式と同義である第２の数式を導出する演算処理部と、
前記データベースに基づいて、前記第１の数式、及び前記第２の数式に関連する前記デジタル情報を検索結果として生成する検索結果生成部と、を備える
検索サーバー。

【請求項2】

前記受信部は、前記情報収集部で収集された前記デジタル情報から抽出した左辺、関係演算子、右辺の順に表記される数式を抽出ワードとして受信し、
前記演算処理部は、
前記受信部で受信した前記抽出ワードを前記第１の数式として演算処理を実行し、
前記データベースには、演算処理により得られた前記第１の数式、及び前記第２の数式を前記デジタル情報と関連付けて登録された
請求項１に記載の検索サーバー。

【請求項3】

前記演算処理部は、
前記第１の数式を構文解析により最小単位の要素に分解したうえで階層的配置からなる第１の木構造モデルを構築する第１の構文解析部と、
所定の規則に従って前記第１の木構造モデルを移項処理し前記第１の数式と同義である第２の数式についての木構造モデルである第２の木構造モデルを構築する第２の構文解析部と、
前記第１の木構造モデル、及び前記第２の木構造モデルを文字列の集合体に変換する文字列変換部と、を有する
請求項１または請求項２に記載の検索サーバー。

【請求項4】

前記第２の構文解析部は、
前記第１の数式の右辺にある数、文字、式の少なくとも一部を左辺に移項し、或いは前記第１の数式の左辺にある数、文字、式の少なくとも一部を右辺に移項して前記第１の数式と同義である前記第２の数式を構築する
請求項３に記載の検索サーバー。

【請求項5】

前記第２の構文解析部は、
前記第１の数式に対する移項処理後の左辺、または右辺にある文字列から共通する文字列を抽出し、該共通する文字列を一の文字に置き換えた数式を前記第２の数式と定義する
請求項３に記載の検索サーバー。

【請求項6】

前記演算処理部は、
前記受信部で受信した前記検索ワードとしての前記第１の数式を移項処理して第２の数式を構築する移項処理部、前記第１の数式、及び前記第２の数式をベクトル変換するベクトル変換部、前記データベースに登録されている前記デジタル情報に含まれる数式とのコサイン類似度を算出する類似度算出部を有する
請求項１または請求項２に記載の検索サーバー。

【請求項7】

前記データベースは、
前記情報収集部により抽出された前記デジタル情報のそれぞれに固有のコンテンツＩＤが付与され、該コンテンツＩＤ毎に前記デジタル情報のＵＲＬ、ファイル名、スニペット情報のうち、少なくとも１つ以上を含む情報が前記第１の数式と前記第２の数式とともに登録されている
請求項１または請求項２に記載の検索サーバー。

【請求項8】

前記データベースは、
前記第１の数式、及び前記第２の数式を含む複数の数式のそれぞれに固有の数式ＩＤが付与され、該数式ＩＤと前記数式を含む前記デジタル情報とが対応付けて登録されている
請求項１または請求項２に記載の検索サーバー。

【請求項9】

前記データベースは、
前記第１の数式、及び前記第２の数式を含む複数の数式のそれぞれに固有の数式ＩＤが付与され、前記文字列変換部により展開された前記数式の最小単位である各要素と、該要素を含む数式の前記数式ＩＤとが対応付けて登録されている
請求項３に記載の検索サーバー。

【請求項10】

前記検索結果生成部は、
前記第１の数式に基づく検索結果と前記第２の数式に基づく検索結果とを同列に扱う場合には、前記第２の数式に基づいて前記データベースを参照して前記デジタル情報の検索結果を生成し、
前記第１の数式に基づく検索結果と前記第２の数式に基づく検索結果とに順位差を設ける場合には、前記第１の数式と前記第２の数式の両方に基づいて前記データベースを参照して前記デジタル情報の検索結果を生成する
請求項１または請求項２に記載の検索サーバー。

【請求項11】

前記情報収集部は、前記デジタル情報を所定の基準に基づいてフィルタリングし、検索結果を序列するフィルタリング部を有する
請求項1または請求項２に記載の検索サーバー。

【請求項12】

情報端末と、
該情報端末とネットワークを介して接続され前記情報端末に対して情報検索サービスを提供する検索サーバーと、を備える検索システムにおいて、
前記検索サーバーは、
前記情報端末から、左辺、関係演算子、右辺の順に表記される数式を含む検索ワードを受信する受信部と、
ネットワーク上及び前記情報端末内を巡回し、ネットワーク上のＷｅｂページ及び前記情報端末内のファイルを含むデジタル情報を収集する情報収集部と、
該情報収集部により収集された前記デジタル情報が登録されたデータベースと、
前記受信部で受信した前記検索ワードに含まれる数式を第１の数式と定義し、該第１の数式を所定の規則に従って移項処理し、前記第１の数式と同義である第２の数式を導出する演算処理部と、
前記データベースに基づいて、前記第１の数式、及び前記第２の数式に関連する前記デジタル情報を検索結果として生成する検索結果生成部と、を備える
検索システム。

【請求項13】

情報端末から、左辺、関係演算子、右辺の順に表記される数式を含む検索ワードを受信するステップと、
ネットワーク上及び前記情報端末内を巡回し、ネットワーク上のＷｅｂページ及び前記情報端末内のファイルを含むデジタル情報を収集してデータベースに登録するステップと、
前記検索ワードに含まれる数式を第１の数式と定義し、該第１の数式を所定の規則に従って移項処理し、前記第１の数式と同義である第２の数式を導出するステップと、
前記データベースに基づいて、前記第１の数式、及び前記第２の数式に関連する前記デジタル情報を検索結果として生成するステップと、
生成された検索結果を前記情報端末に出力するステップと、をコンピュータに実行させるための
検索プログラム。

【請求項14】

前記デジタル情報の前記データベースへの登録は、
前記デジタル情報に含まれる左辺、関係演算子、右辺の順に表記される数式を抽出ワードとして受信するステップと、
該抽出ワードを前記第１の数式として演算して得られた前記第１の数式、及び前記第２の数式を前記デジタル情報と関連付けて登録するステップと、を有する
請求項１３に記載の検索プログラム。

【請求項15】

前記第１の数式と同義である第２の数式を導出するステップは、
前記第１の数式を構文解析により該第１の数式を最小単位の要素に分解して階層的配置からなる第１の木構造モデルを構築するステップと、
所定の規則に従って前記第１の木構造モデルを移項処理し前記第１の数式と同義である第２の数式についての木構造モデルである第２の木構造モデルを構築するステップと、
前記第１の木構造モデル、及び前記第２の木構造モデルを文字列の集合体に変換するステップと、を有する
請求項１３または請求項１４に記載の検索プログラム。

【請求項16】

前記データベースに基づいて、前記第１の数式、及び前記第２の数式に関連する前記デジタル情報を検索結果として生成するステップは、
前記検索ワードとしての前記第１の数式、及び移項処理した前記第２の数式をベクトル変換するステップと、
前記データベースに登録されている前記デジタル情報に含まれる数式とのコサイン類似度を算出するステップと、に基づいて前記検索結果を生成する
請求項１３または請求項１４に記載の検索プログラム。

【請求項17】

前記デジタル情報を検索結果として生成するステップは、
前記第１の数式に基づく検索結果と前記第２の数式に基づく検索結果とを同列に扱う場合には、前記第２の数式に基づいて前記データベースを参照して前記デジタル情報の検索結果を生成するステップを含む
請求項１３または請求項１４に記載の検索プログラム。

【請求項18】

前記デジタル情報を検索結果として生成するステップと、
前記第１の数式に基づく検索結果と前記第２の数式に基づく検索結果とに順位差を設ける場合には、前記第１の数式と前記第２の数式の両方に基づいて前記データベースを参照して前記デジタル情報の検索結果を生成するステップを含む
請求項１３または請求項１４に記載の検索プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、検索サーバー、検索システム、及び検索プログラムに関する。

【背景技術】

【0002】

現在、ネットワーク上や情報端末内には膨大な量のＷｅｂページやファイル（以下、まとめて「デジタル情報」という。）が存在する。そして、これらデジタル情報は増加を続けており、利用者にとっての知識、情報の源として重要な存在と位置付けられている。このような環境下で、大量のデジタル情報を対象として、利用者の要求に応じた知識、情報を提供可能な精度の高い検索システムが必要となる。

【0003】

例えば、ネットワーク上のデジタル情報の検索においては、自然言語による検索方法が確立されている。具体的には、検索エンジンにより、事前にクローラにより収集されたＷｅｂページの情報がデータベースに登録されており、ユーザーインターフェースから検索用語が入力されると、その内容が検索アルゴリズムに従ってデータベースに問い合わされ、その応答が検索結果としてユーザーインターフェース上に表示される。そして、利用者は、ユーザーインターフェース上に表示された検索結果から任意のＷｅｂページを閲覧することで、必要な情報を取得することができる。

【0004】

ところで、数式は理工学分野を含め、あらゆる分野において用いられ、デジタル情報においても重要な情報である場合が多い。例えば、科学論文などにおいては、数式が多く含まれており、数式をキーワードとして、これら科学論文をはじめとする重要なデジタル情報の取得ができる検索エンジンの開発が要望されている。しかしながら、数式は独特かつ複雑な構造を持っているため、自然言語を対象とした従来の検索エンジンでは、これらの数式の構造を正確に捉えることができず、数式を対象とした検索は困難であった。

【0005】

このような問題について、近年では、ネットワーク上で数式を扱う方法として、ＭａｔｈＭＬ（ＭａｔｈｅｍａｔｉｃａｌＭａｒｋｕｐＬａｎｇｕａｇｅ）やＬａＴｅＸ等の表記方法が開発されている。そして、これらの表記方法にＷｅｂブラウザや数式処理ソフトも対応しつつあり、このように数式を容易に表記できる環境が整えば、デジタル情報中に含まれる数式を対象として、数式の内容を表すメタデータの自動抽出が可能となり、数式を対象とした精度の高い検索を実行できることが期待される。

【0006】

しかしながら、ＭａｔｈＭＬは数式をＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）で表現するものであり、数式の構造情報を保持した表記であるが、その表記方法が長文となることから、利用者の入力負担が大きいため広く普及していないのが現状である。

【0007】

一方、ＬａＴｅＸは、数式を文字列として扱うため、一般的な検索エンジンにも容易に実装できると考えられている。しかしながら、ＬａＴｅＸは、あくまでも数式を文字列として捉えるため、例えば数式「ａ＋ｂ＝ｃ」を検索対象として例にとると、「ａ＋ｂ＝ｃ」を含むデジタル情報を抽出することはできるが、数式上は同義である「ｂ＋ａ＝ｃ」や「ａ＋ｂ－ｃ＝０」は、文字列としては異なるため、検索対象外として判断されてしまい、必ずしも検索精度が高いものとはいえない。

【0008】

これらの問題に対して、例えば特許文献１には、数学的に同義な数式の組み合わせを検索するための検索システムが開示されている。特許文献１によれば、数学的に同義な数式の組み合わせの中の一つの数式を文字列として入力すれば、当該組合せの中の残りの数式の少なくとも一部とともに出力することができるため、検索対象の数式と関連する数式を漏れなく検索結果として表示することができるため、検索漏れを防止することができるものとなっている。

【先行技術文献】

【特許文献】

【0009】

【文献】特開２０１６－７１４９５号公報

【発明の概要】

【発明が解決しようとする課題】

【0010】

しかしながら、前記した特許文献１に開示されている数式の検索システムは、システム内の辞書データに登録された数式のみを検索対象としている。即ち、特許文献１は、あくまでも学習用の辞書としての利用に留まるものであり、その検索範囲も、辞書データに事前に登録された範囲に限定されたものとなっている。

【0011】

また、特許文献１においては、等号を含む数式において、その文字列から把握される数式に加えて、右辺と左辺を入れ替えた式、右辺のみ、或いは左辺のみを検索対象として検索を行うため、数式上において同義な組合せの数式を検索できるものの、それだけでは必ずしも同義な組合せの全てを網羅することはできず、依然として検索精度が劣るものとなっている。

【0012】

本発明は、以上の点に鑑みて創案されたものであり、検索サーバー、検索システム、及び検索プログラムを提供することを目的とするものである。

【課題を解決するための手段】

【0013】

前記の目的を達成するために、本発明の検索サーバーは、情報端末から、左辺、関係演算子、右辺の順に表記される数式を含む検索ワードを受信する受信部と、ネットワーク上及び前記情報端末内を巡回し、前記ネットワーク上のＷｅｂページ及び前記情報端末内のファイルを含むデジタル情報を収集する情報収集部と、該情報収集部により収集された前記デジタル情報が登録されたデータベースと、前記受信部で受信した前記検索ワードに含まれる数式を第１の数式と定義するとともに、該第１の数式を所定の規則に従って移項処理して該第１の数式と同義である第２の数式を導出する演算処理部と、前記データベースに基づいて、前記第１の数式、及び前記第２の数式に関連する前記デジタル情報を検索結果として生成する検索結果生成部とを備える。

【0014】

また、本発明の検索システムは、情報端末と、該情報端末とネットワークを介して接続され前記情報端末に対して情報検索サービスを提供する検索サーバーと、を備える検索システムにおいて、前記検索サーバーは、前記情報端末から、左辺、関係演算子、右辺の順に表記される数式を含む検索ワードを受信する受信部と、ネットワーク上及び前記情報端末内を巡回し、ネットワーク上のＷｅｂページ及び前記情報端末内のファイルを含むデジタル情報を収集する情報収集部と、該情報収集部により収集された前記デジタル情報が登録されたデータベースと、前記受信部で受信した前記検索ワードに含まれる数式を第１の数式と定義し、該第１の数式を所定の規則に従って移項処理し、前記第１の数式と同義である第２の数式を導出する演算処理部と、前記データベースに基づいて、前記第１の数式、及び前記第２の数式に関連する前記デジタル情報を検索結果として生成する検索結果生成部とを備える。

【0015】

ここで、情報端末から、左辺、関係演算子、右辺の順に表記される数式を含む検索ワードを受信する受信部を備えることにより、ユーザーインターフェースからユーザーが入力した検索ワードとしての数式を受信部で受信し、以後の演算処理、及び検索処理を実行することができる。

【0016】

また、ネットワーク上及び情報端末内を巡回し、ネットワーク上のＷｅｂページ及び情報端末内のファイルを含むデジタル情報を収集する情報収集部を備えることにより、ネットワーク上に公開されているＷｅｂページ、或いは情報端末内のファイルをデジタル情報として取得しデータベースに登録することができる。これにより、ユーザーインターフェースから入力された検索ワードと関連するＷｅｂページやファイルを抽出し、ユーザーに対して情報提供することができる。

【0017】

また、情報収集部により収集されたデジタル情報が登録されたデータベースを備えることにより、前記した通り、情報収集部により収集されたデジタル情報をデータベースに蓄積することで、検索ワードに関連する数式を含むデジタル情報をユーザーに対して情報提供することができる。

【0018】

また、受信部で受信した検索ワードに含まれる数式を第１の数式と定義するとともに、第１の数式を所定の規則に従って移項処理して第１の数式と同義である第２の数式を導出する演算処理部を備えることにより、ユーザーが入力した数式の構造を捉えることで検索精度を高めることができる。

【0019】

また、データベースに基づいて少なくとも第１の数式、及び第２の数式に関連するデジタル情報を検索結果として生成する検索結果生成部を備えることにより、演算処理部により演算処理された検索ワードに関連する数式に基づいてデータベースに問い合わせ、その結果、検索ワードに関連する数式を含むデジタル情報を抽出することができる。

【0020】

また、生成された検索結果は、通信部を介して情報端末に出力することで、検索結果生成部で生成されたデジタル情報の検索結果を、情報端末に出力することができる。これにより、ユーザーは、情報端末を介して検索結果を閲覧し、情報を収集することができる。

【0021】

また、受信部は、情報収集部で収集されたデジタル情報から抽出した左辺、関係演算子、右辺の順に表記される数式を抽出ワードとして受信し、演算処理部は、受信部で受信した抽出ワードを第１の数式として演算処理を実行し、データベースには、演算処理により得られた第１の数式、及び第２の数式をデジタル情報と関連付けて登録されている場合には、検索ワードとしての第１の数式に対する演算処理と同一の演算処理に基づいて、デジタル情報に含まれる数式を演算処理してデータベースに登録することができる。従って、第１の数式、及び第１の数式と同義の第２の数式も含めて検索対象とすることができるため、検索精度を高めることができる。

【0022】

また、演算処理部は、第１の数式を構文解析により最小単位の要素に分解したうえで階層的配置からなる第１の木構造モデルを構築する第１の構文解析部を有することにより、第１の数式を定数、変数、演算子、或いは関数等の最小単位の要素に分解して木構造モデルを構築することができる。これにより、第１の数式の構造を詳細に捉えることができる。

【0023】

また、演算処理部は、所定の規則に従って第１の木構造モデルを移項処理し第１の数式と同義である第２の数式についての木構造モデルである第２の木構造モデルを構築する第２の構文解析部を有することにより、第１の数式と第２の数式とを同義の数式として扱い、入力された検索ワードに対する検索精度を高めることができる。なお、移項処理における所定の規則とは、一般的な数式上の規則であり、例えば一方の辺から他方の辺に移項した際の符号の変換や、関係演算子の変換などを意味する。

【0024】

また、演算処理部は、第１の木構造モデル、及び第２の木構造モデルを文字列の集合体に変換する文字列変換部を有することにより、第１の木構造モデル、及び第２の木構造モデルとして表現された第１の数式、及び第２の数式のそれぞれについて、その類似度の尺度となる文字列の集合体に変換することができる。

【0025】

また、第２の構文解析部は、第１の数式の右辺にある数、文字、式の少なくとも一部を左辺に移項し、或いは第１の数式の左辺にある数、文字、式の少なくとも一部を右辺に移項して第１の数式と同義である第２の数式を構築する場合には、数式において同義な複数のバリエーションを検索ワードとして扱い、さらにはデータベースに登録することができるため、検索精度を高めることができる。

【0026】

また、第２の構文解析部は、第１の数式に対する移項処理後の左辺、または右辺にある文字列から共通する文字列を抽出し、共通する文字列を一の文字に置き換えた数式を第２の数式と定義する場合には、所定の文字を置換することによって得られた数式について、第１の数式と同義な第２の数式として扱うことができるため、複数の数式のバリエーションを検索ワードとして扱い、さらにはデータベースに登録することができるため、検索精度を高めることができる。

【0027】

また、演算処理部は、受信部で受信した検索ワードとしての第１の数式、及び第１の数式を移項処理した第２の数式をベクトル変換し、データベースに登録されているデジタル情報に含まれる数式とのコサイン類似度を算出する類似度算出部を有する場合には、数式を特徴量としてのベクトルに変換することで、複雑な演算処理を行うことなく、検索ワードに基づく第１の数式と第２の数式とに関連する数式を含むデジタル情報をデータベースから抽出することができる。

【0028】

また、データベースは、情報収集部により抽出されデジタル情報のそれぞれに固有のコンテンツＩＤが付与され、コンテンツＩＤ毎にデジタル情報のＵＲＬ、ファイル名、及びスニペット情報のうち、少なくとも１つ以上を含む情報が第１の数式と第２の数式とともに登録されている場合には、デジタル情報に関する所定の情報がコンテンツＩＤとともにインデックス登録されるため、データベースの容量を少なくし、目的のデータをデータベースから効率的に取り出すことができる。

【0029】

また、データベースは、第１の数式、及び第２の数式を含む複数の数式のそれぞれに固有の数式ＩＤが付与され、数式ＩＤと数式を含むデジタル情報とが対応付けて登録されている場合には、数式毎に付与された数式ＩＤを、デジタル情報と対応付けてインデックス登録することができるため、データベースの容量を少なくし、目的のデータをデータベースから効率的に取り出すことができる。

【0030】

また、データベースは、文字列変換部により展開された数式の最小単位である各要素と、該要素を含む数式の数式ＩＤとが対応付けて登録されている場合には、数式の各要素と、該要素を含む数式の対応関係をデータベース化することができるため、該対応関係を参照して、必要なデジタル情報を効率的に抽出することができる。

【0031】

また、検索結果生成部は、第１の数式に基づく検索結果と第２の数式に基づく検索結果とを同列に扱う場合には、第２の数式に基づいてデータベースを参照してデジタル情報の検索結果を生成する場合には、関連するデジタル情報を、移項処理後の第２の数式に基づいて検索することで、第１の数式も含めて網羅的に検索することができる。

【0032】

さらに、検索結果生成部は、第１の数式に基づく検索結果と第２の数式に基づく検索結果とに順位差を設ける場合には、第１の数式と第２の数式の両方に基づいてデータベースを参照してデジタル情報の検索結果を生成する場合には、検索精度を高めることができることに加え、さらに検索結果を第１の数式に基づく検索結果と第２の数式に基づく検索結果との間で順位付けを行うことができる。

【0033】

また、情報収集部は、収集したデジタル情報を所定の基準に基づいてフィルタリングし、検索結果を序列するフィルタリング部を有する場合には、悪意のあるＷｅｂページ等を検索結果の上位に序列されないようにすることで、検索精度を高めることができる。

【0034】

前記の目的を達成するために、本発明の検索プログラムは、情報端末から、左辺、関係演算子、右辺の順に表記される数式を含む検索ワードを受信するステップと、ネットワーク上及び前記情報端末内を巡回し、ネットワーク上のＷｅｂページ及び前記情報端末内のファイルを含むデジタル情報を収集してデータベースに登録するステップと、前記検索ワードに含まれる数式を第１の数式と定義し、該第１の数式を所定の規則に従って移項処理し、前記第１の数式と同義である第２の数式を導出するステップと、前記データベースに基づいて、前記第１の数式、及び前記第２の数式に関連する前記デジタル情報を検索結果として生成するステップとをコンピュータに実行させるものである。

【0035】

ここで、情報端末から、左辺、関係演算子、右辺の順に表記される数式を含む検索ワードを受信するステップを備えることにより、ユーザーインターフェースからユーザーが入力した検索ワードとしての数式を検索ワードとして受信し、検索エンジンにおける検索処理を実行することができる。

【0036】

また、ネットワーク上及び情報端末内を巡回し、ネットワーク上のＷｅｂページ及び情報端末内のファイルを含むデジタル情報を収集してデータベースに登録するステップを備えることにより、入力された検索ワードに関連する数式を含むデジタル情報をユーザーに対して情報提供することができる。

【0037】

また、検索ワードに含まれる数式を第１の数式と定義し、第１の数式を所定の規則に従って移項処理し、前記第１の数式と同義である第２の数式を導出するステップを備えることにより、ユーザーが入力した数式の構造を捉えて検索精度を高めることができる。

【0038】

また、データベースに基づいて、第１の数式、及び第２の数式に関連するデジタル情報を検索結果として生成するステップを備えることにより、演算処理された検索ワードに関連する数式に基づいてデータベースに問い合わせ、その結果、検索ワードに関連する数式を含むデジタル情報を抽出することができる。そして、生成された検索結果は、情報端末に出力することで、ユーザーは、情報端末を介して検索結果を閲覧し、情報を収集することができる。

【0039】

また、デジタル情報のデータベースへの登録は、デジタル情報に含まれる左辺、関係演算子、右辺の順に表記される数式を抽出ワードとして受信するステップと、抽出ワードを第１の数式として演算して得られた第１の数式、及び第２の数式をデジタル情報と関連付けて登録するステップとを有する場合には、検索ワードとしての第１の数式に対する演算処理と同一の演算処理に基づいて、デジタル情報に含まれる数式を演算処理してデータベースに登録することができる。従って、第１の数式と、第１の数式と同義の第２の数式も含めて検索対象とすることができるため、検索精度を高めることができる。

【0040】

また、第１の数式と同義である第２の数式を導出するステップは、第１の数式を構文解析により第１の数式を最小単位の要素に分解して階層的配置からなる第１の木構造モデルを構築するステップを有することにより、第１の数式に含まれる定数、変数、演算子、或いは関数等の最小単位の要素に分解して木構造モデルを構築するこができる。これにより、第１の数式の構造を詳細に捉えることができる。

【0041】

さらに、第１の数式と同義である第２の数式を導出するステップは、所定の規則に従って第１の木構造モデルを移項処理し第１の数式と同義である第２の数式についての木構造モデルである第２の木構造モデルを構築するステップを有することにより、数式において同義な複数のバリエーションを検索ワードとして扱うことで、検索精度を高めることができる。

【0042】

また、第１の木構造モデル、及び第２の木構造モデルを文字列の集合体に変換するステップを備えることにより、木構造モデルとして表現された第１の数式、及び第２の数式について、その類似度の尺度となる文字列の集合体に変換することができる。

【0043】

また、データベースに基づいて、第１の数式、及び第２の数式に関連するデジタル情報を検索結果として生成するステップは、検索ワードとしての第１の数式、及び移項処理した第２の数式をベクトル変換するステップと、データベースに登録されているデジタル情報に含まれる数式とのコサイン類似度を算出するステップとに基づいて、検索結果を生成する場合には、数式をベクトルとして扱うことで、複雑な演算処理を行うことなく、検索ワードに基づく第１の数式と第２の数式とに関連する数式を含むデジタル情報をデータベースから抽出することができる。

【0044】

また、デジタル情報を検索結果として生成するステップは、第１の数式に基づく検索結果と第２の数式に基づく検索結果を同列に扱う場合には、第２の数式に基づいて前記データベースを参照してデジタル情報の検索結果を生成するステップを含む場合には、関連するデジタル情報を、移項処理後の第２の数式に基づいて検索することで、第１の数式も含めて網羅的に検索することができる。

【0045】

また、デジタル情報を検索結果として生成するステップは、第１の数式に基づく検索結果と第２の数式に基づく検索結果とに順位差を設ける場合には、第１の数式と第２の数式の両方に基づいてデータベースを参照してデジタル情報の検索結果を生成するステップを含む場合には、検索精度を高めることができることに加え、さらに検索結果を第１の数式に基づく検索結果と第２の数式に基づく検索結果との間で順位付けを行うことができる。

【発明の効果】

【0046】

本発明に係る検索サーバー、検索システム、及び検索プログラムは、数式の構造を詳細に反映し、検索ワードとしての数式を含むデジタル情報の検索精度を高めることができるものとなっている。

【図面の簡単な説明】

【0047】

【図1】本発明の第１の実施形態に係る検索システムの全体構成を示す図である。

【図2】数式の木構造モデルの一例を示す概念図である。

【図3】数式の木構造モデルの一例を示す概念図である。

【図4】数式の木構造モデルの一例を示す概念図である。

【図5】文字列変換部により木構造モデルから文字列の集合体へ変換した状態を示す図である。

【図6】データベースの構造を示す図である。

【図7】本発明の第１の実施形態に係る検索プログラムにおいて実行される登録時の処理を示すフロー図である。

【図8】本発明の第１の実施形態に係る検索プログラムにおいて実行される検索時の処理を示すフロー図である。

【図9】本発明の第３の実施形態に係る検索システムの全体構成を示す図である。

【図10】本発明の第２の実施形態に係る検索プログラムにおいて実行される登録時の処理を示すフロー図である。

【図11】本発明の第２の実施形態に係る検索プログラムにおいて実行される検索時の処理を示すフロー図である。

【発明を実施するための形態】

【0048】

以下、検索サーバー、検索システム、及び検索プログラムに関する本発明の実施の形態について、図面を参照しながら説明し、本発明の理解に供する。本発明の実施形態は、例えば、数式の構造を詳細に反映し、検索ワードとしての数式を含むデジタル情報の検索精度を高めることができる検索サーバー、検索システム、及び検索プログラムに係るものである。

【0049】

１第１の実施形態
まず、本発明の第１の実施形態に係る検索システム１の全体構成について図１を用いて説明する。第１の実施形態に係る検索システム１は、例えば左辺、関係演算子、右辺の順に表記された文字列から構成された数式を検索ワード（検索クエリ）として検索するためのシステムであり、ユーザーが使用する少なくとも一つの情報端末１０と、Ｗｅｂサーバー２０、及び検索サーバー３０とを備え、これら情報端末１０とＷｅｂサーバー２０、及び検索サーバー３０とが通信ネットワーク４０を通じて双方向に通信可能に接続されている。なお、情報端末１０、Ｗｅｂサーバー２０、及び検索サーバー３０は、必ずしも別々の構成である必要はなく、例えば各サーバーと情報端末１０を１つのシステムにして構成することもできる。

【0050】

ここで、通信ネットワーク４０は、一般的にはＩＰベースのコンピュータネットワークを含むが、これに限定されるものではない。例えば、通信ネットワーク４０は、ノード間通信を可能とする、あらゆるプロトコルの通信ネットワークを適用することができる。

【0051】

なお、検索システム１は、通信ネットワーク４０上のデジタル情報の検索ツールとして適用できることは勿論のこと、例えば情報端末１０内のローカルエリア内のファイル検索のための検索ツールとしても適用可能である。なお、以下では説明の便宜上、通信ネットワーク４０上におけるデジタル情報の検索について主に説明する。

【0052】

情報端末１０は、例えば、ユーザが所有するコンピューティングデバイスであり、パーソナルコンピュータ、タブレット端末、或いは携帯端末など、数式を入力可能な端末である。情報端末１０は、通信ネットワーク４０を介して、検索エンジンとしての検索サーバー３０にアクセスするための、ユーザインターフェースとして機能するビューワを含む。ビューワは、例えば、Ｗｅｂブラウザであり得るが、これに限られるものではない。ユーザーは、例えば、ＳＳＬなどの通信技術を利用することによって、通信ネットワーク４０を介して、Ｗｅｂサーバー２０、及び検索サーバー３０との通信セッションを構築する。

【0053】

なお、通信ネットワーク４０に接続されるサーバーとしては、Ｗｅｂサーバー２０、及び検索サーバー３０のみである必要はなく、その他、必要なサーバーを追加することもできる。また、Ｗｅｂサーバー２０と検索サーバー３０を一体化し、一つの管理サーバーとして機能させることも可能である。

【0054】

Ｗｅｂサーバー２０は、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）等のドキュメントシステムにおいて、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）ファイルや画像ファイル、音楽ファイルなどの情報送信を行うものである。

【0055】

検索サーバー３０は、図１に示される通り、通信部３１、受信部３２、演算処理部３３、検索結果生成部３４、及びデータベース（ＤＢ）３５から主に構成されている。また、検索サーバー３０は、例えばインデックス型検索エンジンであり、インデックスの作成、及び更新の機能と、該インデックスに基づくデータベース検索の機能を有する。そして、検索サーバー３０のデータベース３５は、情報収集部３６と、インデクサ３７が接続されている。以下、検索サーバー３０のハードウェア構成について詳細に説明する。

【0056】

［通信部］
通信部３１は、通信ネットワーク４０を介して他の装置（本発明の実施形態では、図１の情報端末１０）との間で通信を行う制御装置であり、情報端末１０から送信される検索ワードを受信、或いは検索結果生成部３４で生成された検索結果を情報端末１０に送信する送受信機能を有する。

【0057】

［受信部］
受信部３２は、ユーザーが情報端末１０を介して入力した数式を含む検索ワードを通信部３１を介して受信する。受信部３２は、情報端末１０から検索ワードが送信されると、適宜送信されてくる検索ワードを受信する。なお、通信部３１に受信部３２の機能を備えるようにしてもよい。

【0058】

さらに受信部３２は、情報収集部３６で収集されたＷｅｂページから所定の数式を抽出し、抽出ワードとして受信する。なお、受信部３２において抽出ワードを受信する場合は、データベース３５の定期的なアップデートに同期して受信することができる。

【0059】

ここで受信部３２で受信する数式は、ＬａＴｅＸ形式やＭａｔｈＭＬ（ＭａｔｈｅｍａｔｉｃａｌＭａｒｋｕｐＬａｎｇｕａｇｅ）形式などの公知の記述方式で記載された数式は勿論のことで、画像データとしての数式についても受信することが可能であり、その場合、画像データをテキストデータに変換するための画像処理部を別途設けることができる。

【0060】

［演算処理部］
演算処理部３３は、所定のオペレーティングシステム（ＯＳ）上において、本発明の実施形態の検索プログラムが実行されるＣＰＵであり、構文解析部３３１、及び文字列変換部３３２から構成されている。

【0061】

＜構文解析部＞
構文解析部３３１は、前記した所定の形式からなる数式を構文解析して木構造モデルを構築する機能を有しており、第１の構文解析部３３１ａと第２の構文解析部３３１ｂから構成されている。なお、構文解析部３３１のハードウェアの構成として、第１の構文解析部３３１ａと第２の構文解析部３３１ｂがそれぞれ別体で構成されている必要はない。一つの構文解析部３３１内に第１の構文解析部３３１ａと第２の構文解析部３３１ｂの機能を一体化させるようにしてもよい。

【0062】

一般的に、数式をＬａＴｅＸ等のように文字列として扱う場合には、文章と同列に扱うことができるため、テキストベースの従来型の検索エンジンにも容易に実装することができる。しかしながら、前記した通り数式を文字列として扱うと、例えば「ａ＋ｂ＝ｃ」と「ｂ＋ａ＝ｃ」とは数式上の意味は同じではあるが、文字列としては異なるため、従来の検索エンジンにおいては同義のものとして扱うことができない。そこで、構文解析部３３１により、数式を木構造モデルに展開することで、数式の構造を詳細に捉え、数式上の意味が同じ数式を同義に扱うことで検索精度を高めることが可能となる。これにより、例えば、数式として「ａ－ｂ＝ｃ」を検索ワードとして入力することで、同時に「ａ－ｂ－ｃ＝０」の数式も検索対象とすることができる。

【0063】

まず、第１の構文解析部３３１ａでは、受信部３２で受信した検索ワード、或いは抽出ワードに含まれる数式を第１の数式と定義して構文解析する。この構文解析により、第１の数式に含まれる定数、変数、関係演算子、或いは関数等の最小単位の要素に分解して根ノードから葉ノードへ階層的に配置された木構造モデル（以下、第１の数式に基づいて構築された木構造モデルを「第１の木構造モデル」とよぶ。）を構築する。

【0064】

第２の構文解析部３３１ｂは、第１の構文解析部３３１ａで構築された第１の木構造モデルを所定の数式ルールに従って移項処理し、第１の数式と同義である第２の数式に対応する木構造モデル（以下、第２の数式に基づいて構築された木構造モデルを「第２の木構造モデル」とよぶ。）を構築する。

【0065】

なお、移項処理における数式ルールとは、例えば、以下の（１）～（４）に示すような数式上の規則である。（１）すべての変数を左辺（又は右辺）に移項する、（２）項の並び順はアルファベット順にする、（３）項の中の文字の並び順はアルファベット順にする、（４）最も左（又は右）にある項がマイナス（－）のときには、両辺に「－１」を乗算する、といった数式ルールを定義しておき、この数式ルールの概念に沿って、第１の木構造モデルを移項処理することができる。

【0066】

ここで、前記した移項処理のための数式ルールは、前記した（１）～（４）に限定されるものではなく、適宜変更することが可能である。また、数式ルールによっては、第１の数式を移項した数式として、第２の数式のみならず、２つ以上の数式を移項後の数式として定義し、それぞれの木構造モデルを構築するようにしてもよい。

【0067】

本発明の実施形態においては、数式の構文解析に用いる構文解析器としては、公知のアーリー法を採用するが、例えばチャート法、一般化ＬＲ法による構文解析、ＭａｘｉｍｕｍＳｐａｎｎｉｎｇＴｒｅｅを用いた係り受け解析など、一般的な手法から適宜選択できるものとする。そして、構文解析部３３１では、構文解析に基づいて所定のルールを抽出したうえで演算処理を行い、ルールの集合を得る。なお、ここでのルールとは、木構造モデルを構築するための文法であり、係るルールに基づいて、根ノードを頂点とする階層的配置からなる木構造モデルを得ることができる。

【0068】

例えば、ｙ＝０を木構造モデルで表現すると、図２のように表すことができる。このとき「＝」のノードの子ノードは、「ｙ」のノードと「０」のノードの２つから構成される。「ｙ」のノードと「０」のノードには子ノードはなく、親ノードが「＝」のノードとなる。そして「＝」のノードは木構造の最上位にあり、親ノードを持たないので根ノードとなる。

【0069】

また、例えば、「ａ＝ｂ＞ｃ＝ｄ」を図２に示した方法で表現すると、それぞれ図３（ａ）、図３（ｂ）のようになる。ここで、根ノードを表す「ｓｔａｒｔ」ノードを設定することもできる。なお、根ノードを表す名前について、「ｒｏｏｔ」ではなく「ｓｔａｒｔ」を用いる理由は、「ｒｏｏｔ」が数学で平方根の意味で使用されており、それとの区別を図るためである。そして、新たに設定した「ｓｔａｒｔ」ノードを用いて前記した「ａ＝ｂ＞ｃ＝ｄ」を表現すると、図４に示す木構造モデルとなる。

【0070】

以上のように第１の構文解析部３３１ａでは、検索ワード或いは抽出ワードとして受信した数式を第１の数式と定義し、第１の数式に含まれる文字列を最小単位の要素に分解したうえで、階層的配置された第１の木構造モデルを構築することができる。また、第２の構文解析部３３１ｂでは、第１の木構造モデルを移項処理して第１の数式と同義である第２の数式について第２の木構造モデルを構築することができる。

【0071】

また、構文解析が完了した数式に対して、以下のＡ～Ｉに示すような任意のルールを適用させることで、さらに検索精度を高めるようにすることもできる。なお、以下のＡ～Ｉは例示であり、これらに限定されるものではなく、さらに追加のルールを追加適用することが可能である。

【0072】

Ａ：変数
束縛変数には他の文字を使っても論理に全く影響を与えることがない。例えば、式（１）と式（２）では、束縛変数が「ｉ」と「ｋ」の違いがあるものの、何れも同じことを意味している。しかし、検索ワードとしての文字が違えば、互いに違う数式として扱われるため検索精度が落ちる。そこで、束縛変数のみの相違の数式については、互いに同義の数式であるというルールを登録しておくことで、束縛変数が異なる場合でも互いに同義の数式として検索対象とすることができる。

【数1】

【数2】

【0073】

Ｂ：文字の置換
例えば、「ａ（ｂ＋ｃ）＋ｄ（ｂ＋ｃ）＝ｅ」について、（ｂ＋ｃ）を「Ｙ」と定義すると、「ａＹ＋ｄＹ」と表記できる。このように、数式に含まれる共通の文字列を別の一の文字に置換できるルールを登録しておくことで、ａ（ｂ＋ｃ）＋ｄ（ｂ＋ｃ）を検索したときに、「ａＹ＋ｄＹ＝ｅ」も検索対象とすることが可能となる。

【0074】

Ｃ：正規化
例えば、ユーザーが「０．９９９」という数字を含む数式を含むＷｅｂページを検索するときには、ユーザーが検索ワードの数式に含まれる数字として「０．９９」と入力すると、数字が完全一致しないため、「０．９９９」のＷｅｂページは表示されないことになる。そこで、数式の構文解析が終わったあとで、必要に応じて正規化を行うようにすることで、ユーザーが入力した「９」の個数に限らず同一の検索結果を表示することが可能となる。

【0075】

Ｄ：展開式
例えば、前記した式（１）を展開すると、「ｘ_１＋ｘ_２＋・・・ｘ_ｎ」となる。即ち、式（１）と「ｘ_１＋ｘ_２＋・・・ｘ_ｎ」は等価である。このように、展開前後の式が同義のものであるというルールを登録しておくことで、数式の表記が異なる場合でも互いに同義の数式として検索対象とすることが可能となる。

【0076】

Ｅ：近似形式
例えば、「ｙ＝ａｘ^２」と「Ｅ＝ｍｃ^２」は文字列として異なるが、数式の形は同じであるため、このように数式中の各文字列を他の共通の文字に置換した場合に、同一の数式となる場合には互いに同義の数式として検索対象とすることが可能である。

【0077】

Ｆ：関係演算子の変換
例えば、両辺を入れ替えたときに不等号の向きが変わる数式として、「ａ＞ｂ」は「ｂ＜ａ」、「Ａ⊂Ｂ」は「Ｂ⊃Ａ」として検索対象とすることが可能である。

【0078】

Ｇ：符号の変換
例えば、「＋」と「－」や「×」と「÷」のように、移項したときの符号の変換を定義することで、「ａ＋b＝c＋ｄ」は「ａ＋ｂ－ｃ＝ｄ」、「ａ＝ｂ÷ｃ」は「ａ×ｃ＝ｂ」として検索対象とすることが可能である。

【0079】

Ｈ：０の補完
例えば、「ａ＝ｂ」の右辺の「ｂ」を左辺に移項したときに、右辺に何も残らない場合には、「ａ－ｂ＝０」のように、「０」を補完して検索対象とすることが可能である。

【0080】

Ｉ：項の並べ方
例えば、「ｂｘ＋ａｘ^２＋ｃ」と「ｃ＋ｂｘ＋ａｘ^２」については、「ａｘ^２＋ｂｘ＋ｃ」のように降べきの順など、一意に定まる並べ方で並べて、これらを含めて検索対象とすることが可能である。

【0081】

＜文字列変換部＞
構文解析部３３１により、第１の数式、及び第２の数式のそれぞれの構造を詳細に捉える木構造モデルの構築が可能となる。文字列変換部３３２は、木構造モデルの数式を分解して文字列の集合体を生成する機能を有している。

【0082】

木構造モデルの数式の分解には、公知の「ＳｕｂｐａｔｈＳｅｔ」の手法に基づいて分解することができる。図５には、文字列変換部３３２による木構造モデルから文字列の集合体への変換を示す一例を示す。

【0083】

例えば、数式として「ｙ＝ａｘ＋ｂ」を定義した場合に、図５（ａ）は構文解析部３３１により構築された数式の木構造モデルを示し、図５（ｂ）はこの木構造モデルを文字列変換部３３２によりにより展開されたＳｕｂｐａｔｈＳｅｔを示している。なお、図５（ａ）では、便宜的に「＝」を根ノードとして表記している。図５のように、木構造モデルを「／」で区切った合計１９個の要素を持つ文字列の集合体に分解することで、木構造モデルをデータベース３５に登録可能な文字列の集合体に変換することが可能となる。

【0084】

［情報収集部］
情報収集部３６は、Ｗｅｂ上の多種多様なデジタル情報（例えば、Ｗｅｂページ、文書、画像、プログラムなど）を自動的に収集するための自動巡回エージェントプログラムとしてのクローラとして機能する。例えば、情報収集部３６は、Ｗｅｂページ内のリンクを辿りながら、Ｗｅｂ上のサイトを周期的に訪問して、サイト内にあるデジタル情報を収集する。本発明の実施形態において情報収集部３６は、特定の専門分野（理工分野）に属するサイト内のデジタル情報を収集するものであってもよい。また、情報収集部３６は、収集したデジタル情報を図示しない記憶装置に一時的に記憶させるようにしてもよい。

【0085】

［インデクサ］
インデクサ３７は、収集されたデジタル情報をデータベース３５に登録するとともに、該デジタル情報に含まれるテキストデータを解析し、該解析の結果に従ってインデックスを作成、更新する機能を有する。本発明の実施形態のインデクサ３７は、概略的には、デジタル情報に含まれるテキストデータをいくつかの要素に分解し、これらに基づいてテーブルデータを展開、更新していく。

【0086】

更新されたテーブルデータは、新たな検索対象となり、その後、インデクサ３７は更新されたテーブルデータに基づいて、所定の手法（例えばＮ－ｇｒａｍ手法など）で見出し語を切り出して、これを収集したデジタル情報と関連付けてインデックスを作成、更新する。また、インデクサ３７は、収集したデジタル情報とテーブルデータとを関連付けて、データベース３５に登録する。

【0087】

［データベース］
データベース３５は、情報収集部３６によって収集されたインデックスを含むデジタル情報がテーブルデータとして格納されている。図６は、本発明の実施形態に係る検索システム１におけるデータベース３５の一例を説明するための図である。データベース３５には、主に「ｐａｇｅ」、「ｉｎｖｅｒｔｅｄｉｎｄｅｘ」、「ｐａｔｈｄｉｃｔｉｏｎａｒｙ」の３つのテーブルデータが格納されている。

【0088】

図６（ａ）は、テーブルデータとしての「ｐａｇｅ」に格納されている情報の一例を示す。「ｐａｇｅ」には数式を含むＷｅｂページの基本情報が格納されており、例えば、デジタル情報を識別するコンテンツＩＤ（ｕｒｌＩＤ）、デジタル情報のＵＲＬ、Ｗｅｂページに記載されている数式（ｅｘｐｒｓ）、Ｗｅｂページのタイトル（ｔｉｔｌｅ）、及びＷｅｂページの内容（ｃｏｎｔｅｎｔ）が関連付けて格納されている。

【0089】

また、図６（ｂ）には、テーブルデータとしての「ｉｎｖｅｒｔｅｄｉｎｄｅｘ」に格納されている情報の一例を示す。「ｉｎｖｅｒｔｅｄｉｎｄｅｘ」には検索結果を表示するために必要な情報が格納されており、例えば、数式を識別する数式ＩＤ（ｅｘｐｒｉｄ）、Ｗｅｂページに記載されている数式（ｅｘｐｒ）、この数式を含むＷｅｂページ情報として、Ｗｅｂページで使用されている言語や「ｐａｇｅ」に含まれるコンテンツＩＤ（ｕｒｌＩＤ）が関連付けて格納されている。なお、図６（ｂ）の例では、数式はＭａｔｈＭＬ形式で格納されているが、数式の表記形式はＭａｔｈＭＬに限定されるものではない。

【0090】

また、「ｉｎｖｅｒｔｅｄｉｎｄｅｘ」の検索結果を表示するために必要な情報（ｉｎｆо）が格納されている領域には、さらに格納する情報として、数式やキーワードのＷｅｂページ内における出現位置、最終更新日時など、検索結果の表示およびランキングに必要な情報を格納することもできる。

【0091】

また、図６（ｃ）には、テーブルデータとしての「ｐａｔｈｄｉｃｔｉｏｎａｒｙ」に格納されている情報の一例を示す。「ｐａｔｈｄｉｃｔｉｏｎａｒｙ」には、「ｐａｇｅ」、或いは「ｉｎｖｅｒｔｅｄｉｎｄｅｘ」に格納されている数式を分解した各要素（ｅｘｐｒｐａｔｈ）と、そのもととなる数式（ｅｘｐｒｉｄ）が関連付けて格納されている。

【0092】

ここで、必ずしも、データベース３５のデータ構造としては、前記したものに限定されるものではなく、データ構造については適宜変更することが可能である。

【0093】

［検索結果生成部］
検索結果生成部３４は、情報端末１０から入力された検索ワードを受け付けて、インデックスを検索し、その検索結果に基づいてデータベース３５から該当するデジタル情報を抽出し、これを検索結果として情報端末１０に提供する。検索結果生成部３４は、例えば、検索ワードと抽出したデジタル情報との間の適合度を所定の手法により算出し、その算出結果に応じて抽出したデジタル情報を順位付けした検索結果が提供される。

【0094】

なお、本発明の実施形態では、検索結果生成部３４は、情報端末１０から入力された検索ワードに対する検索結果を、通信部３１から情報端末１０に直接送信しているが、これに限られるものではない。例えば、検索結果生成部３４は、検索結果を、所定のインターフェースを介して、他のアプリケーションプログラムに渡し、他のアプリケーションプログラムにより該検索結果に対する所定の情報処理を行った結果を情報端末１０に送信するようにしてもよい。

【0095】

また、情報収集部３６には、収集したデジタル情報をフィルタリングして、ノイズを除去するフィルタリング機能を設けることもできる。例えば、１つのＷｅｂページに大量の数式が含まれている場合、構造に欠陥のある数式が含まれている場合、式移項が誤っている数式が含まれている場合には、フィルタリング機能により、それらの情報を含むＷｅｂページを検索結果から排除する、或いは検索結果の下位に表示されるようにフィルタリングすることが可能である。

【0096】

以上が本発明の第１の実施形態に係る検索システム１の主な構成である。次に第１の実施形態に係る検索システム１において実現される検索プログラムについて図７、図８のフロー図に基づいて説明する。

【0097】

［登録処理フロー］
検索サーバー３０では、情報端末１０から入力された検索ワードに基づいて、Ｗｅｂページの検索が実行可能なように、事前にＷｅｂページに関するデジタル情報がデータベース３５に登録される。データベース３５へのデジタル情報の登録時は、図７の処理フローに従って実行される。

【0098】

＜Ｓ１０１：数式の取得＞
まず、検索サーバー３０は、情報収集部３６よって収集されたデジタル情報に含まれるテキスト文を受信する。例えば、検索サーバー３０は、情報収集部３６によって収集されたデジタル情報を受信すると、デジタル情報に含まれるテキスト文を図示しないテキスト処理部において形態素解析を行い、テキスト文をトークン化、即ち、テキスト文から複数のトークンを切り出し、その中から数式を抽出する。

【0099】

＜Ｓ１０２：抽出ワードの受信＞
Ｓ１０１において抽出された数式は、抽出ワードとして受信部３２に送信され、以後、演算処理部３３による演算処理に供される。

【0100】

＜Ｓ１０３：第１の構文解析＞
受信部３２で受信した抽出ワードは第１の構文解析部３３１ａに送信される。第１の構文解析部３３１ａに入力された数式は第１の数式として定義され、係る第１の数式に対する構文解析が実行されて第１の木構造モデルが構築される。構文解析の処理は前記した通りであるため、ここではその説明を省略する。

【0101】

＜Ｓ１０４：第２の構文解析＞
Ｓ１０３で構築された第１の木構造モデルは、第２の構文解析部３３１ｂにおいて、所定の数式ルールに従って移項処理され、第１の数式と同義の第２の数式に対応する第２の木構造モデルが構築される。

【0102】

＜Ｓ１０５：文字列変換＞
Ｓ１０３、及びＳ１０４の処理により得られた第１の木構造モデル、及び第２の木構造モデルは、そのままの形態ではデータベース３５に登録することができない。そこで、Ｓ１０５では、これら第１の木構造モデルと第２の木構造モデルを文字列変換部３３２により文字列の集合体に変換する。文字列の集合体への変換は、前記した通り、公知の「ＳｕｂｐａｔｈＳｅｔ」の手法により実行される。

【0103】

＜Ｓ１０６：データベースへの登録＞
Ｓ１０６において、第１の木構造モデル、及び第２の木構造モデルがそれぞれ文字列の集合体に変換されると、情報収集部３６によりこれら文字列の集合体の内容が解析される。情報収集部３６の解析結果に従って、文字列の集合体がいくつかの要素に分解され、これらに基づいて、データベース３５に格納されている「ｐａｇｅ」、「ｉｎｖｅｒｔｅｄｉｎｄｅｘ」、「ｐａｔｈｄｉｃｔｉｏｎａｒｙ」の３つのテーブルデータが更新される。

【0104】

以上が、検索サーバー３０におけるデジタル情報のデータベース３５への登録処理プログラムである。なお、データベース３５への登録の際には、検索結果の表示順序をランキングするための、ランキングに必要な情報も同時に登録することで、検索結果の序列を設けることができる。

【0105】

［検索処理フロー］
次に、情報端末１０から入力された検索ワードに基づいて、データベース３５に登録されているＷｅｂページの検索を実行する際の処理フローについて説明する。Ｗｅｂページの検索は、図８の処理フローに従って実行される。

【0106】

＜Ｓ２０１：検索ワードの受信＞
情報端末１０から入力された数式を含む検索ワードは検索サーバー３０に送信され、受信部３２で受信される。

【0107】

＜Ｓ２０２：第１の構文解析＞
受信部３２で受信した検索ワードは第１の構文解析部３３１ａに送信される。なお、以後の演算処理は、前記した［登録処理フロー］と同じである。即ち、第１の構文解析部３３１ａに入力された第１の数式に対しては構文解析が実行され、第１の木構造モデルが構築される。

【0108】

＜Ｓ２０３：第２の構文解析＞
Ｓ２０２で構築された第１の木構造モデルは、第２の構文解析部３３１ｂにおいて、所定の数式ルールに従って移項処理され、第１の数式と同義の第２の数式に対応する第２の木構造モデルが構築される。

【0109】

＜Ｓ２０４：文字列変換＞
Ｓ２０２、及びＳ２０３の処理により得られた第１の木構造モデル、及び第２の木構造モデルは、前記した公知の「ＳｕｂｐａｔｈＳｅｔ」の手法により文字列の集合体に変換される。

【0110】

＜Ｓ２０５：検索結果の生成＞
Ｓ２０４で文字列に変換された第１の数式、及び第２の数式について、データベース３５との照合によりデータベース３５に登録されているデジタル情報から、類似度の高いデジタル情報が抽出され、検索結果として生成される。生成された検索結果は、ユーザーの情報端末１０に表示される。

【0111】

なお、前記した登録処理フローで説明した通り、第１の数式、及び移項処理した第２の数式の何れもデータベース３５に登録がされている。従って、例えば第１の数式と第２の数式による検索結果を同列に扱う場合には、第２の数式に対応する第２の木構造モデルについてのみ文字列変換が行われ、第２の数式に基づいてデータベースに対して問い合わせが行われる。

【0112】

一方、例えば第１の数式と第２の数式による検索結果に対して順位付けを行う場合には、第１の数式に対応する第１の木構造モデルと、第２の数式に対応する第２の木構造モデルの両方について文字列変換が行われ、第１の数式、及び第２の数式に基づいてデータベースに対して問い合わせが行われる。

【0113】

２第２の実施形態
次に、本発明の第２の実施形態に係る検索システム１ａについて説明する。なお、以下の説明においては、第１の実施形態と共通する構成については共通の符号を付するとともに、重複する説明については省略する。

【0114】

まず、第２の実施形態に係る検索システム１ａにおける検索サーバー３０ａの構成を図９に示す。図９に示す通り、第２の実施形態に係る検索システム１ａは、検索サーバー３０ａのうち演算処理部３３ａの構成が第１の実施形態と異なり、それ以外の構成、及び処理フローは同一である。

【0115】

検索サーバー３０ａの演算処理部３３ａは、第１の実施形態における構文解析部３３１、及び文字列変換部３３２に代えて移項処理部３３３、ベクトル変換部３３４、及び類似度算出部３３５が設けられている。そして、受信部３２で受信したテキストベースの検索ワード、或いは抽出ワードは、まず移項処理部３３３に入力され、移項処理部３３３に入力された数式は第１の数式として定義される。そして、移項処理部３３３においては第１の数式を移項処理して第２の数式を得ることができる。

【0116】

次に、第１の数式、及び移項処理により得られた第２の数式は、ベクトル変換部３３４においてベクトル化される。このベクトル化により、第１の数式と第２の数式を含む各数式はそれぞれの特徴を特徴量として数値化することができる。

【0117】

なお、数式のベクトル化を行う方法は特に限定されるものではなく、例えば文字の出現と非出現とを２値（「１」、「０」）にて表す方法や、ＴＦ－ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ－ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）等を用いてもよい。また、数式に含まれる文字列のそれぞれの特徴量として、文字の出現頻度を用いる方法の他に、数式に含まれる文字列の確率値を用いる方法も採用することができる。

【0118】

類似度算出部３３５では、検索ワードとしての数式と、データベース３５に登録されている数式との類似度を、ベクトル変換部３３４で求めたベクトルを用いて計算する。具体的には、第１の数式または第２の数式ｆ_１と、データベース３５に登録されている数式ｆ_２について、式（３）に基づいて正規化する。なお、ｆ_１は検索ワードに含まれる数式，ｆ_２はデータベース３５に登録されている数式、Φは数式をベクトルに変換する関数，Ｆは類似度を計算する関数である。

【数3】

【0119】

そして、正規化後のベクトルｆ_１、ｆ_２の内積を求めることにより、ベクトルｆ_１、ｆ_２間のコサイン類似度を式（４）に基づいて演算する。

【数4】

【0120】

以上が第２の実施形態に係る検索システム１のハードウェア構成である。次に、係る検索システム１の検索サーバー３０ａで実行される演算処理について説明する。

【0121】

［登録処理フロー］
まず、第２の実施形態に係るデータベース３５へのデジタル情報の登録時は、図１０の処理フローに従って実行される。

【0122】

＜Ｓ３０１：数式の取得＞
検索サーバー３０ａは、情報収集部３６よって収集されたデジタル情報に含まれるテキスト文を受信する。

【0123】

＜Ｓ１０２：抽出ワードの受信＞
テキスト文から所定の数式を抽出し、抽出した数式は抽出ワードとして受信部３２に送信され、以後、演算処理部３３ａによる演算処理に供される。

【0124】

＜Ｓ３０３：移項処理＞
受信部３２で受信した抽出ワードは演算処理部３３ａに送信され、抽出ワードを第１の数式として定義される。そして、先ずは移項処理部３３３において第１の数式が所定の規則に従って移項処理され、移項処理後の第２の数式が得られる。

【0125】

＜Ｓ３０４：ベクトル変換＞
第１の数式、及び第２の数式はベクトル変換部３３４において、それぞれの特徴を特徴量としてベクトル化される。

【0126】

＜Ｓ３０５：データベースへの登録＞
Ｓ３０４において、ベクトル化された各数式がデータベース３５に登録されると、データベース３５に格納されている「ｐａｇｅ」、「ｉｎｖｅｒｔｅｄｉｎｄｅｘ」、「ｐａｔｈｄｉｃｔｉｏｎａｒｙ」の３つのテーブルデータが更新される。

【0127】

以上が、検索サーバー３０ａにおけるデジタル情報のデータベース３５への登録処理プログラムである。なお、第１の実施形態と同様に、データベースへの登録（Ｓ３０５）の際には、検索結果の表示順序をランキングするための、ランキングに必要な情報も同時に登録することで、検索結果の序列を設けることができる。

【0128】

［検索処理フロー］
次に、情報端末１０から入力された検索ワードに基づいて、データベース３５に登録されているＷｅｂページの検索を実行する際の処理フローについて説明する。Ｗｅｂページの検索は、図１１の処理フローに従って実行される。

【0129】

＜Ｓ４０１：検索ワードの受信＞
情報端末１０から入力された数式を含む検索ワードは検索サーバー３０に送信され、受信部３２で受信される。

【0130】

＜Ｓ４０２：移項処理＞
受信部３２で受信した検索ワードは演算処理部３３に送信され、検索ワードを第１の数式として定義される。そして、先ずは移項処理部３３３において第１の数式が所定の規則に従って移項処理され、移項処理後の第２の数式が得られる。

【0131】

＜Ｓ４０３：ベクトル変換＞
第１の数式、及び第２の数式はベクトル変換部３３４において、それぞれの特徴を特徴量としてベクトル化される。

【0132】

＜Ｓ４０４：類似度の算出＞
Ｓ４０３でベクトル化された第１の数式、及び第２の数式は、類似度算出部３３５においてデータベース３５との照合により、データベース３５に登録されている数式との関係でコサイン類似度が算出される。

【0133】

＜Ｓ４０５：検索結果の生成＞
Ｓ４０４で演算したコサイン類似度に基づいて、一定のスコア以上を有するデジタル情報が抽出され、スコア順にデジタル情報の序列がされる。序列されたデジタル情報は情報端末１０に送信される。

【0134】

以上のように、本発明の第２の実施形態においては、第１の実施形態に係る発明の木構造モデルに代えて、テキストベースの数式を構成する各要素に対して特徴量としての固有のベクトルを与えて埋め込み表現（Ｅｍｂｅｄｄｉｎｇ）するモデルを採用した。これにより、テキストベースの数式について、演算処理可能なベクトル同士の類似度に基づいて、検索結果を生成することを可能とした。さらに、Ｅｍｂｅｄｄｉｎｇモデルの構築に際して、数式の移項処理を行うことで、第１の実施形態に係る発明と同様に検索精度を高めることを可能としている。

【0135】

以上、本発明に係る検索サーバー、検索システム、及び検索プログラムは、数式の構造を詳細に反映し、検索ワードとしての数式を含むデジタル情報の検索精度を高めることができる。

【符号の説明】

【0136】

１、１ａ検索システム
１０情報端末
２０Ｗｅｂサーバー
３０、３０ａ検索サーバー
３１通信部
３２受信部
３３、３３ａ演算処理部
３３１構文解析部
３３１ａ第１の構文解析部
３３１ｂ第２の構文解析部
３３２文字列変換部
３３３移項処理部
３３４ベクトル変換部
３３５類似度算出部
３４検索結果生成部
３５データベース
３６情報収集部
３７インデクサ
４０通信ネットワーク

【要約】

【課題】数式の構造を詳細に反映し、検索ワードとしての数式を含むデジタル情報の検索精度を高めることができる検索サーバー、検索システム、及び検索プログラムを提供することを目的とする。
【解決手段】検索サーバー３０は、情報端末１０から数式を含む検索ワードを受信すると、演算処理部３３において、該数式を第１の数式と定義したうえで第１の木構造モデルを生成する。さらに演算処理部３３は、第１の木構造モデルを所定の規則に従って移項処理した数式を第２の数式と定義して、第２の木構造モデルを生成する。そして、これら木構造モデルを文字列の集合体に変換したうえで、データベース３５に登録されているデジタル情報のうち関連性の高いデジタル情報に基づいて検索結果を生成する。
【選択図】図１