特開2024-123763 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ゴールドアイピーの特許一覧

特開2024-123763情報処理装置、情報処理方法および情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024123763

(43)【公開日】2024-09-12

(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム

(51)【国際特許分類】

G06F 16/31 20190101AFI20240905BHJP

【ＦＩ】

G06F16/31

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023031419

(22)【出願日】2023-03-01

(71)【出願人】

【識別番号】515277757

【氏名又は名称】株式会社ＡＩＳａｍｕｒａｉ

(72)【発明者】

【氏名】渕武志

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175KA08

(57)【要約】（修正有）

【課題】検索の事前準備のための時間を短縮する情報処理装置、情報処理方法および情報処理プログラムを提供する。
【解決手段】情報処理装置は、文書に含まれる文字をスキャンして出現する文字が重複しない文字列を生成する文字列生成部と、文書が有する文章に含まれる文字が生成された文字列に含まれるか否かを示す数字列を文章毎に並べた行列を生成する行列生成部と、キーワードを取得するキーワード取得部と、取得したキーワードに含まれる文字が生成された文字列に含まれるときは要素を正値とする、文字列の大きさを有する入力ベクトルを生成する入力ベクトル生成部と、生成された入力ベクトルと生成された行列との積を演算して出力ベクトルを生成する出力ベクトル生成部と、生成した出力ベクトルの要素の正値の数を判定する判定部と、を備える。
【選択図】図６

【特許請求の範囲】

【請求項1】

検索対象のキーワードに基づきデータベースに記憶された複数の被検索対象の文書を検索する情報処理装置であって、
前記文書に含まれる文字をスキャンして出現する文字が重複しない文字列を生成する文字列生成部と、
前記文書が有する文章に含まれる文字が前記文字列生成部において生成された前記文字列に含まれるか否かを示す数字列を前記文章毎に並べた行列を生成する行列生成部と、
前記キーワードを取得するキーワード取得部と、
前記キーワード取得部において取得された前記キーワードに含まれる文字が前記文字列生成部において生成された前記文字列に含まれるときは要素を真値とする、前記文字列の大きさを有する入力ベクトルを生成する入力ベクトル生成部と、
前記入力ベクトル生成部で生成された前記入力ベクトルと前記行列生成部において生成された前記行列との積を演算して出力ベクトルを生成する出力ベクトル生成部と、
前記出力ベクトル生成部において生成された前記出力ベクトルの要素の真値の数を判定する判定部と
を備える情報処理装置。

【請求項2】

前記文書に含まれる文字に対して文章毎に連番を付与する連番付与部をさらに備え、
前記行列生成部は、前記行列を、前記連番付与部において付与された前記連番を用いた前記数字列を前記文章毎に並べて生成する、請求項１に記載の情報処理装置。

【請求項3】

前記判定部は、前記真値の数が前記キーワードの文字数であって、かつ、前記真値の順序が前記行列生成部において生成された前記行列における要素の順である場合に、前記文書が前記キーワードにおいてヒットしたと判定する、請求項２に記載の情報処理装置。

【請求項4】

前記判定部は、前記真値の数が前記キーワードの文字数である場合、前記文書の全文を前記キーワードにおける再検索の対象として判定する、請求項１または２に記載の情報処理装置。

【請求項5】

コンピュータが、
検索対象のキーワードに基づきデータベースに記憶された複数の被検索対象の文書を検索する情報処理方法であって、
前記文書に含まれる文字をスキャンして出現する文字が重複しない文字列を生成する文字列生成ステップと、
前記文書が有する文章に含まれる文字が前記文字列生成ステップにおいて生成された前記文字列に含まれるか否かを示す数字列を前記文章毎に並べた行列を生成する行列生成ステップと、
前記キーワードを取得するキーワード取得ステップと、
前記キーワード取得ステップにおいて取得された前記キーワードに含まれる文字が前記文字列生成ステップにおいて生成された前記文字列に含まれるときは要素を真値とする、前記文字列の大きさを有する入力ベクトルを生成する入力ベクトル生成ステップと、
前記入力ベクトル生成ステップで生成された前記入力ベクトルと前記行列生成ステップにおいて生成された前記行列との積を演算して出力ベクトルを生成する出力ベクトル生成ステップと、
前記出力ベクトル生成ステップにおいて生成された前記出力ベクトルの要素の真値の数を判定する判定ステップと
を実行する情報処理方法。

【請求項6】

コンピュータに、
検索対象のキーワードに基づきデータベースに記憶された複数の被検索対象の文書を検索させる情報処理プログラムであって、
前記文書に含まれる文字をスキャンして出現する文字が重複しない文字列を生成する文字列生成機能と、
前記文書が有する文章に含まれる文字が前記文字列生成機能において生成された前記文字列に含まれるか否かを示す数字列を前記文章毎に並べた行列を生成する行列生成機能と、
前記キーワードを取得するキーワード取得機能と、
前記キーワード取得機能において取得された前記キーワードに含まれる文字が前記文字列生成機能において生成された前記文字列に含まれるときは要素を真値とする、前記文字列の大きさを有する入力ベクトルを生成する入力ベクトル生成機能と、
前記入力ベクトル生成機能で生成された前記入力ベクトルと前記行列生成機能において生成された前記行列との積を演算して出力ベクトルを生成する出力ベクトル生成機能と、
前記出力ベクトル生成機能において生成された前記出力ベクトルの要素の真値の数を判定する判定機能と
を実現させる情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。

【背景技術】

【0002】

従来から、ユーザの発話又は操作等に基づいて文章を入力して対話を行う対話システムが提案されている。対話システムに用いられているものとして、入力した文章に自動応答を行うためのルールを記述するＡＩＭＬ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＭａｒｋｕｐＬａｎｇｕａｇｅ）が知られている。

【0003】

特許文献１には、文章を入力する入力部と、前記入力部によって入力された文章と、予め設定されたマッチング用文章とのマッチングを判断するマッチング判断部と、を備え、前記マッチング用文章は、複数の文字列の単位に分割された構成となっており、当該単位の少なくとも一つは、更に複数の文字列に分割された複数の候補を含んでおり、前記マッチング判断部は、前記入力部によって入力された文章を複数の文字列の単位に分割されたものとして、マッチングを判断する、文章マッチングシステムが記載されている。

【0004】

また、従来から、検索対象の全ての文書について転置インデックスを予め作成しておき、検索用語と転置インデックスとを用いて文書検索を行う検索方法が知られている。

【0005】

特許文献２には、情報処理装置の抽出手段は、文書と該文書の特徴を対応付けた転置インデックスから、選択された文書の特徴を抽出し、検索手段は、前記抽出手段によって抽出された特徴のいずれかを有する文書を、前記転置インデックスによって検索し、選択手段は、前記検索手段による複数の検索結果に対応する特徴のうち、該検索結果の絞り込みの効果の高い特徴を選択し、提示手段は、前記選択手段によって選択された特徴の組み合わせを検索条件として提示する情報処理装置が記載されている。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０１９－１９２１９５号公報

【特許文献2】特開２０１６－０９１３５４号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかし、特許文献１に記載の技術においては、入力した文章とマッチングを行うためのマッチング用文章を、予め用意しておく必要がある。従来のＡＩＭＬでは、入力した文章に対して適切な自動応答を行うためには、一部が異なるだけの数多くのマッチング用文章を用意しておかなければならず、検索の事前準備としてのマッチング用文章の作成に時間がかかっていた。

【0008】

また、特許文献２に記載の技術においては、予め転置インデックスを記録しておく必要があり、検索の事前準備としての転置インデックスの作成に時間がかかっていた。

【0009】

本発明は上記事情に鑑みてなされたものであり、検索の事前準備のための時間を短縮することを一つの目的とする。

【課題を解決するための手段】

【0010】

上記の課題を解決するための一つの実施形態として、情報処理装置は、検索対象のキーワードに基づきデータベースに記憶された複数の被検索対象の文書を検索する情報処理装置であって、文書に含まれる文字をスキャンして出現する文字が重複しない文字列を生成する文字列生成部と、文書が有する文章に含まれる文字が文字列生成部において生成された文字列に含まれるか否かを示す数字列を文章毎に並べた行列を生成する行列生成部と、キーワードを取得するキーワード取得部と、キーワード取得部において取得されたキーワードに含まれる文字が文字列生成部において生成された前記文字列に含まれるときは要素を正値とする、文字列の大きさを有する入力ベクトルを生成する入力ベクトル生成部と、入力ベクトル生成部で生成された入力ベクトルと行列生成部において生成された行列との積を演算して出力ベクトルを生成する出力ベクトル生成部と、出力ベクトル生成部において生成された出力ベクトルの要素の正値の数を判定する判定部と、を備える。

【発明の効果】

【0011】

本発明の一つの実施形態によれば、情報処理装置は、文書に含まれる文字をスキャンして出現する文字が重複しない文字列を生成し、文書が有する文章に含まれる文字が生成された文字列に含まれるか否かを示す数字列を文章毎に並べた行列を生成し、キーワードを取得し、取得されたキーワードに含まれる文字が生成された文字列に含まれるときは要素を正値とする、文字列の大きさを有する入力ベクトルを生成し、生成された入力ベクトルと生成された行列との積を演算して出力ベクトルを生成し、生成された出力ベクトルの要素の正値の数を判定することにより、検索の事前準備のための時間を短縮することができる。

【図面の簡単な説明】

【0012】

【図1】実施形態の情報処理方法における処理の概要の一例を示す図である。

【図2】実施形態の情報処理装置における第１の処理方法による検索前処理一例を示す図である。

【図3】実施形態の情報処理装置における第１の処理方法による検索処理一例を示す図である。

【図4】実施形態の情報処理装置における第２の処理方法による検索前処理一例を示す図である。

【図5】実施形態の情報処理装置における第２の処理方法による検索処理一例を示す図である。

【図6】実施形態の情報処理装置におけるソフトウェア構成の一例を示すブロック図である。

【図7】実施形態の情報処理装置におけるハードウェア構成の一例を示すブロック図である。

【発明を実施するための形態】

【0013】

以下、図面を参照して本発明の一実施形態における情報処理装置、情報処理方法および情報処理プログラムについて詳細に説明する。

【0014】

先ず、図１を用いて、情報処理方法の概要を説明する。図１は、実施形態の情報処理方法における処理の概要の一例を示す図である。

【0015】

図１において、情報処理方法は、検索前処理Ｓ１と検索処理Ｓ２を含む。検索前処理Ｓ１は、検索処理Ｓ２が実施される前に実施される処理である。本実施例における情報処理方法は、検索前処理Ｓ１を高速化することにより、検索の事前準備のための時間を短縮することができる。

【0016】

本実施形態における検索処理Ｓ２は、検索対象のキーワードに基づきデータベースに記憶された複数の被検索対象の文書を検索する処理である。検索対象のキーワードとは、実施形態の情報処理方法を利用して検索を実行する利用者によって入力されるキーワードである。キーワードは、１または複数の文字からなる文字列である。キーワードには、複数の文字の種類を含めることができる。文字の種類とは、例えば、ひらがな、漢字、英字、数字、句読点、記号、絵文字等である。

【0017】

検索処理Ｓ２は、データベースに記憶された複数の文書を被検索対象として実施される。文書は、１または複数の文章から構成される。文章は、１または複数の文字から構成される。本実施形態における文章は、例えば、句点、ピリオド、またはスペース等によって区切られる文字列である。

【0018】

検索前処理Ｓ１は、文字列生成処理Ｓ１１、連番付与処理Ｓ１２、行列生成処理Ｓ１３および行列保存処理Ｓ１４を含む。

【0019】

文字列生成処理Ｓ１１は、被検索対象の文書に含まれる文字をスキャンして出現する文字が重複しない文字列を生成する処理である。ここで、図２および図３を用いて文字列生成処理Ｓ１１の第１の処理方法を説明する。図２は、実施形態の情報処理装置における第１の処理方法による検索前処理Ｓ１１の一例を示す図である。また、図３は、実施形態の情報処理装置における第１の処理方法による検索処理一例を示す図である。

【0020】

図２において、文字列生成処理Ｓ１１は、先頭文字抽出処理Ｓ１１１および先頭文字列生成処理Ｓ１１２を含む。先頭文字抽出処理Ｓ１１１は、文書の先頭から文字をスキャンしていき、文書において最初に出現する文字を抽出する。図２は、被検索対象の文書が、「今日は晴れていて気持ちの良い日です。昨日は全日曇りで、とても寒かったです。明日は雨の予報なので、心配です。」の３つの文章を有する場合を示す。なお、「今日は晴れていて気持ちの良い日です。」を第１文章とする。「昨日は全日曇りで、とても寒かったです。」を第２文章とする。また、「明日は雨の予報なので、心配です。」を第３文章とする。先頭文字抽出処理Ｓ１１１において文書において最初に出現する文字として抽出された文字を塗りつぶしで示す。先頭文字抽出処理Ｓ１１１において抽出された文字は、「今日は晴れてい気持ちの良です。昨日全曇り、とも寒かった明雨予報な心配」となる。

【0021】

先頭文字列生成処理Ｓ１１２は、先頭文字抽出処理Ｓ１１１において抽出された文字を文字の種類毎に文字列として生成する。図２においては、文字の種類が、ひらがな、句読点および漢字の３種類である場合を例示している。先頭文字列生成処理Ｓ１１２において、先頭文字抽出処理Ｓ１１１において抽出された文字である、「今日は晴れてい気持ちの良です。昨日全曇り、とも寒かった明雨予報な心配」をひらがな、句読点および漢字の順の文字列として、「はれていちのですりともかったな、。今日晴気持良昨全曇寒明雨予報心配」の文字列が生成される。

【0022】

なお、文字列生成処理Ｓ１１においては、被検索対象の文書に含まれる文字をスキャンして出現する文字が重複しない文字列を生成する処理として、文書の先頭からスキャンして最初に出現する文字を文字の種類毎に文字列として生成する処理（先頭文字抽出処理Ｓ１１１および先頭文字列生成処理Ｓ１１２）を例示した。しかし、文字列生成処理Ｓ１１において生成される文字列は文字が重複しないものであればよく、上記実施例に限定されるものではない。文字列生成処理Ｓ１１は、例えば、文字が出現する順序に無関係に並べられた文字列を生成するものであってもよい。

【0023】

また、文字列生成処理Ｓ１１は、文字の種類とは無関係に並べられた文字列を生成するものであってもよい。

【0024】

また、文字列生成処理Ｓ１１は、文字列は予め定められた固定の文字列（以下、「固定文字列」という。）を生成（選択）するものであってもよい。固定文字列におけるそれぞれの文字は重複しないものであれば任意の文字列を用いることができる。例えば、固定文字列は被検索対象の文書とは無関係な文字列としてもよい。この場合、固定文字列の文字は被検索対象の文書に含まれていない可能性があり、後述する判定処理においてヒットと判定されても原文の再検索において却下と判定される可能性が高くなるおそれがある。しかし、固定文字列とすることにより、被検索対象の文書が変更または追加された場合であっても文字列生成処理Ｓ１１を再度行う必要がなくなり、処理の高速化が可能となる。

【0025】

図１に戻り、検索前処理Ｓ１は、文字列生成処理Ｓ１１を実行した後に、連番付与処理Ｓ１２を実行する。連番付与処理Ｓ１２は、被検索対象の文書に含まれる文字に対して文章毎に連番を付与する処理である。図２を用いて連番付与処理Ｓ１２の一例を説明する。

【0026】

図２において、連番付与処理Ｓ１２は、第１の連番付与処理Ｓ１２１を含む。第１の連番付与処理Ｓ１２１においては、被検索対象の文書を文章ごとに分解して、それぞれの文章毎に連番を付与する。例えば、第１文章である「今日は晴れていて気持ちの良い日です。」は１８文字で構成されるため、１～１８の連番が付与される。同様に、第２文章である、「昨日は全日曇りで、とても寒かったです。」には、１～１９の連番が付与される。また、第３文章である、「明日は雨の予報なので、心配です。」には、１～１６の連番が付与される。

【0027】

図１に戻り、検索前処理Ｓ１は、連番付与処理Ｓ１２を実行した後に、行列生成処理Ｓ１３を実行する。行列生成処理１３は、文書が有する文章に含まれる文字が文字列生成処理Ｓ１１において生成された文字列に含まれるか否かを示す数字列を文章毎に並べた行列を生成する処理である。図２を用いて行列生成処理Ｓ１３の一例を説明する。

【0028】

図２において、行列生成処理Ｓ１３は、第１の行列生成処理Ｓ１３１を含む。第１の行列生成処理Ｓ１３１は、文書が有する文章に含まれる文字が先頭文字列生成処理Ｓ１１２において生成された文字列に含まれる正値であるか否かを示す数字列を文章毎に並べた行列（以下、「第１行列」という。）を生成する処理である。生成された文字列に含まれるか否かを示す数字列とは、生成された文字列に含まれる正値であるか、文字列に含まれない負値であるか否かを示す数字を並べたものである。図２は、当該数字列が、第１の連番付与処理Ｓ１２１において付与された連番を用いた数字列（以下、「第１数字列」という。）である場合を示している。

【0029】

例えば、第１文章である「今日は晴れていて気持ちの良い日です。」には第１の連番付与処理Ｓ１２１において、上述の通り、１～１８の連番が付与される。先頭文字列生成処理Ｓ１１２において生成された文字列「はれていちのですりともかったな。、今日晴気持良昨全曇寒明雨予報心配」の１番目の「は」の文字は第１文章の３番目に含まれるため、「は」には「３」の数字が割り当てられる。同様に、２番目の「れ」の文字は第１文章の５番目に含まれるため、「れ」には「５」の数字が割り当てられ、さらに、３番目の「て」の文字には「６」の数字が割り当てられる。一方、９番目の「り」の文字は第１文章には含まれないため、「り」には、文字列に含まれないことを示す「０」の数字が割り当てらる。この処理を先頭文字列生成処理Ｓ１１２において生成された文字列全てについて行うと、「３、５、６、７、１１、１２、１６、１７、０、０、０、０、０、０、０、０、１８、１、２、４、９、１０、１３、０、０、０、０、０、０、０、０、０、０」の３１個の数字からなる第１数字列が生成される。第２文章および第３文章においても同様の処理を行うことにより、第１の行列生成処理Ｓ１３１において、図示する３行３３列の第１行列を生成することができる。

【0030】

図１に戻り、検索前処理Ｓ１は、行列生成処理Ｓ１３を実行した後に、行列保存処理Ｓ１４を実行する。行列保存処理Ｓ１４は、行列生成処理Ｓ１３で生成した行列を保存する処理であり、行列の保存先は任意である。

【0031】

検索前処理Ｓ１は、以上説明したように、文書が有する文章に含まれる文字が文字列生成処理Ｓ１１において生成された文字列に含まれるか否かを示す数字列を文章毎に並べた行列を生成することで、転置インデックスを生成するような負荷の大きい処理を行わない。このため、検索の事前準備のための時間を短縮することが可能となる。

【0032】

検索前処理Ｓ１と検索処理Ｓ２は、同期または非同期で実施することができる。検索前処理Ｓ１は短時間で実行できるため、検索処理Ｓ２と非同期して実行される場合には、検索の事前準備のための時間を短縮することが可能となる。また、検索前処理Ｓ１を検索処理Ｓ２と同期して実行される場合であっても検索処理Ｓ２の待ち時間を短くすることができる。

【0033】

検索処理Ｓ２は、キーワード取得処理Ｓ２１、入力ベクトル生成処理Ｓ２２、出力ベクトル生成処理Ｓ２３および判定処理Ｓ２４を含む。キーワード取得処理Ｓ２１は、利用者によって入力されたキーワードを取得する処理である。ここで、図３を用いてキーワード取得処理Ｓ２１を説明する。図３は、実施形態の情報処理装置における第１の処理方法による検索処理Ｓ２１の一例を示す図である。

【0034】

図３において、キーワード取得処理Ｓ２１は、取得処理Ｓ２１１を含む。取得処理Ｓ２１１は、キーワードとして、「良い日」が取得されたことを示している。

【0035】

図１に戻り、検索処理Ｓ２は、キーワード取得処理Ｓ２１を実行した後に、入力ベクトル生成処理Ｓ２２を実行する。入力ベクトル生成処理Ｓ２２は、キーワード取得処理Ｓ２１において取得されたキーワードに含まれる文字が文字列生成処理Ｓ１１において生成された文字列に含まれるときは要素を正値とする、文字列の大きさを有する入力ベクトルを生成する処理である。すなわち、入力ベクトルは、字列の大きさに応じた要素の数を有する。

【0036】

入力ベクトルのそれぞれの要素は、正値または負値のいずれかの値を有する。要素が正値である場合、キーワードに含まれる文字が文字列生成処理Ｓ１１において生成された文字列に含まれることを示す。一方、要素が負値である場合、キーワードに含まれる文字が文字列生成処理Ｓ１１において生成された文字列に含まれないことを示す。

【0037】

図３において、入力ベクトル生成処理Ｓ２２は、入力ベクトル生成処理Ｓ２２１を含む。文字列生成処理Ｓ１１において生成された文字列は、上述のように、「はれていちのですりともかったな。、今日晴気持良昨全曇寒明雨予報心配」の３３文字である。このため、入力ベクトルの要素の数は３３となる。文字列の１番目の「は」の文字は、キーワードである「良い日」に含まれない。このため、入力ベクトル生成処理Ｓ２２１において、入力ベクトルの１番目の要素は、負値であることを示す「０」とされる。同様に、文字列の２番目の「れ」の文字および３番目の「て」の文字は、「良い日」に含まれないため、入力ベクトルの２番目の要素および３番目の要素は「０」とされる。一方、文字列の４番目の「い」の文字は、「良い日」に含まれるため、入力ベクトルの４番目の要素は、正値であることを示す「１」とされる。同様に、３３個の全ての要素について「１」または「０」のいずれかの値を有する入力ベクトルが生成される。その結果、入力ベクトル生成処理Ｓ２２１において、３３個の要素を有する「０００１００００００００００００００１０００１００００００００００」の入力ベクトルが生成される。

【0038】

図１に戻り、検索処理Ｓ２は、入力ベクトル生成処理Ｓ２２を実行した後に、出力ベクトル生成処理Ｓ２３を実行する。出力ベクトル生成処理Ｓ２３は、入力ベクトル生成処理Ｓ２２で生成された入力ベクトルと行列生成処理Ｓ１３において生成された行列との積を演算して出力ベクトルを生成する。例えば、行列がＡ、入力ベクトルがｘであった場合、出力ベクトルｙは、ｙ＝Ａｘで生成される。

【0039】

図３において、出力ベクトル生成処理Ｓ２３は、出力ベクトル生成処理Ｓ２３１を含む。出力ベクトル生成処理Ｓ２３１において、入力ベクトル生成処理Ｓ２２１で生成された３３個の要素を有する入力ベクトルと、行列生成処理１３１で生成された３行３３列の第１行列との積が実行される。出力ベクトル生成処理Ｓ２３１においては、入力ベクトルと第１行列の第１行の積、入力ベクトルと第２行の積、および入力ベクトルと第３行の積の３つの積が実行される。入力ベクトルと第１行の積は、「００００11０００００００００００００００９10０００００００００００」と演算される。入力ベクトルと第２行の積は、「０００００００００００００００００００００００００００００００００」と演算される。また、入力ベクトルと第３行の積は、「０００００００００００００００００００００００００００００００００」と演算される。出力ベクトルは上記３つの行を有する３３列のベクトルとなる。

【0040】

出力ベクトル生成処理Ｓ２３における上記３つの積は並列で処理することができるため処理時間を短縮することができる。例えば、出力ベクトル生成処理Ｓ２３１において並列処理が可能なＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を用いた場合、３つの積は並列で処理できる。このため、出力ベクトル生成処理Ｓ２３１の処理時間は、逐次処理を行う場合に対して約１／３に短縮することができる。

【0041】

図１に戻り、検索処理Ｓ２は、出力ベクトル生成処理Ｓ２３を実行した後に、判定処理Ｓ２４を実行する。判定処理Ｓ２４は、出力ベクトル生成処理Ｓ２３において生成された出力ベクトルの要素の正値の数を判定する処理である。判定処理Ｓ２４の詳細を、図３を用いて説明する。

【0042】

図３において、判定処理Ｓ２４は、第１判定処理Ｓ２４１を含む。第１判定処理Ｓ２４１は、出力ベクトル生成処理Ｓ２３１において生成された３行３３列の出力ベクトルのそれぞれの行において、要素が「０」以外の正値の数を数える。判定処理Ｓ２４１は、正値の数がキーワードの文字数である３個であって、かつ、出力ベクトル生成処理Ｓ２３１において生成された出力ベクトルの真値の順序が行列生成処理１３１において生成された第１行列における要素の順序である場合に、文書がキーワードにおいてヒットしたと判定する。ここで、ヒットの判定は、正値の数がキーワードの文字数である３個であって、かつ、生成された出力ベクトルの真値の順序が生成された第１行列における要素の順序である場合であるため、ヒットと判定された場合であってもキーワードが原文に含まれない場合が生じる。このため、第１判定処理Ｓ２４１において、ヒットと判定された場合であっても、ヒットした文章の原文がキーワードによって再検索される。再検索の結果、原文にキーワードが含まれない場合、ヒットしていないと判定（却下判定）する。すなわち、本実施例におけるヒットとは、被検索対象の文書が原文での再検索を行う対象であることを示す判定結果である。

【0043】

なお、第１判定処理Ｓ２４１においては、生成された出力ベクトルの真値の順序が生成された第１行列における要素の順序であるか否かを判定条件としている。この出力ベクトルの真値の順序は、上述の通り、連番付与処理Ｓ１２１において付与された連番において生成されている。出力ベクトルの真値の順序が生成された第１行列における要素の順序であるか否かを判定条件とすることにより、これを判定条件としない場合に比べて、再検索をする前に却下判定ができる可能性が高くなるという効果を得ることができる。

【0044】

出力ベクトルの第１行である「００００11０００００００００００００００９10０００００００００００」は、正値が「11」、「９」および「10」の３つ（キーワードの文字数＝３）であり、かつ「11」→「９」→「10」の順序は、行列生成処理１３１において生成された第１行列の「３５６７11121617００００００００18１２４９1013００００００００００」における「11」→「９」→「10」の順序と同一である。したがって、第１判定処理Ｓ２４１においては、文書がキーワードにおいてヒットしたと判定することができる。

【0045】

また、出力ベクトルの第２行である「０００００００００００００００００００００００００００００００００」は、正値が０（３個未満）であるため、第１判定処理Ｓ２４１においては、文書がキーワードにおいてヒットしていないと判定（却下判定）することができる。さらに、出力ベクトルの第３行である「０００００００００００００００００００００００００００００００００」は、正値が０（３個未満）であるため、文書がキーワードにおいて却下判定することができる。

【0046】

上述した第１の処理方法においては、生成される行列に被検索対象の文書における文字（最初に出現する文字）の順序が記録されるため、ヒットした文書においては行列と入力ベクトルとの積により算出される出力ベクトルにもその順序が記録される。このため、正値の数と正値となった文字の順序とを判定することにより、再検索で却下判定とならない可能性の高い判定を実施することができる。

【0047】

なお、本実施形態においては、キーワードから入力ベクトルを生成する場合を説明している。入力ベクトルは、キーワードの文字の順序を示すベクトル成分とキーワードの文字の有無を示すスカラー成分からなる。しかし、文書のヒットを判断するのに使用されるのは上述の通りスカラー成分のみである。したがって、入力ベクトル生成処理においは、スカラー成分のみを生成するものであってもよい。この場合、「入力ベクトル生成処理」は「入力スカラー生成処理」と読み替えることができる。

【0048】

また、本実施形態において、出力ベクトルは行列と入力ベクトルの積として説明した。しかし、行列の各行は上述の通り、文字の順序を示すベクトル成分を有する。このため、行列の代わりに各行をベクトルとして、出力ベクトルを、各行のベクトルと入力ベクトルとの積において演算するようにしてもよい。

【0049】

次に、図４および図５を用いて文字列生成処理Ｓ１１の第２の実施方法を説明する。図４は、実施形態の情報処理装置における第２の処理方法による検索前処理Ｓ１１の一例を示す図である。また、図５は、実施形態の情報処理装置における第２の処理方法による検索処理一例を示す図である。第２の処理方法は、第１の処理方法において実行される連番付与処理Ｓ１２を実行しない処理方法である。

【0050】

図４において、文字列生成処理Ｓ１１は、先頭文字抽出処理Ｓ１１３および先頭文字列生成処理Ｓ１１４を含む。先頭文字抽出処理Ｓ１１３の処理は先頭文字抽出処理Ｓ１１１の処理と同様である。また、先頭文字列生成処理Ｓ１１４の処理は先頭文字列生成処理Ｓ１１２と同様である。このため、先頭文字抽出処理Ｓ１１３および先頭文字列生成処理Ｓ１１４の説明は省略する。

【0051】

図４において、第２の行列生成処理Ｓ１３２は、文書が有する文章に含まれる文字が、先頭文字列生成処理Ｓ１１４において生成された文字列に含まれる正値であるか、または文字列に含まれない負値であるかを示す数字列を文章毎に並べた行列（以下、「第２行列」という。）を生成する処理である。図４は、当該数字列が、正値である場合「１」、負値である場合「０」を用いる場合を示している。第２行列は第１行列に含まれていた連番が含まれない。このため、行列生成処理Ｓ１３２で生成される行列には、先頭文字抽出処理Ｓ１１３で抽出された文字の順序は記録されない。

【0052】

行列生成処理Ｓ１３２において、先頭文字列生成処理Ｓ１１４において生成された文字列「はれていちのですりともかったな。、今日晴気持良昨全曇寒明雨予報心配」の１番目の「は」の文字は第１文章の３番目に含まれるため、「は」には正値である「１」の数字が割り当てられる。２番目の「れ」の文字は第１文章の５番目に含まれるため、「れ」には正値である「１」の数字が割り当てられる。一方、９番目の「り」の文字は第１文章には含まれないため、「り」には、文字列に含まれないことを示す負値の「０」の数字が割り当てられる。この処理を先頭文字列生成処理Ｓ１１４において生成された文字列全てについて行うと、「１、１、１、１、１、１、１、１、０、０、０、０、０、０、０、０、１、１、１、１、１、１、１、０、０、０、０、０、０、０、０、０、０」の３１個の数字からなる第２数字列が生成される。第２の行列生成処理Ｓ１３２においては、第２文章および第３文章においても同様の処理を行うことにより、図示する３行３３列の第１行列を生成することができる。

【0053】

図５において、取得処理Ｓ２１２は、取得処理Ｓ２１１と同様であり、入力ベクトル生成処理Ｓ２２２は、入力ベクトル生成処理Ｓ２２１と同様である。このため、取得処理Ｓ２１２および入力ベクトル生成処理Ｓ２２２の説明は省略する。

【0054】

図５において、出力ベクトル生成処理Ｓ２３は、出力ベクトル生成処理Ｓ２３２を含む。出力ベクトル生成処理Ｓ２３２において、行列生成処理１３２で生成された３行３３列の第１行列と、入力ベクトル生成処理Ｓ２２２で生成された３３個の要素を有する入力ベクトルとの積が実行される。出力ベクトル生成処理Ｓ２３２においては、第２行列の第１行と入力ベクトルとの積、第２行と入力ベクトルとの積、および第３行と入力ベクトルとの積の３つの積が実行される。第１行と入力ベクトルとの積は、「００００11０００００００００００００００９10０００００００００００」と演算される。第２行と入力ベクトルとの積は、「０００００００００００００００００００００００００００００００００」と演算される。また、第３行と入力ベクトルとの積は、「０００００００００００００００００００００００００００００００００」と演算される。出力ベクトルは上記３つの行を有する３行３３列のベクトルとなる。

【0055】

判定処理Ｓ２４は、第１判定処理Ｓ２４２を含む。第２判定処理Ｓ２４２は、出力ベクトル生成処理Ｓ２３２において生成された３行３３列の出力ベクトルのそれぞれの行において、要素が「１」の正値の数を数える。判定処理Ｓ２４２は、正値の数が３個である場合、文書がキーワードにおいてヒットしたと判定する。一方、判定処理Ｓ２４２は、正値の数が３個未満である場合、文書がキーワードにおいてヒットしていないと判定（却下判定）する。

【0056】

第２の処理方法においては、上述の通り、生成される行列に被検索対象の文書における文字（最初に出現する文字）の順序を記録しないため、ヒットした文書においては行列と入力ベクトルとの積により算出される出力ベクトルにもその順序が記録されない。このため、第２の処理方法においては、第１の処理方法に比べて、再検索により却下判定となる可能性が高くなる。しかし、第２の処理方法においては、第１の処理方法で実行される連番付与処理を省略できるため、検索前処理Ｓ１の負荷がさらに軽減される。

【0057】

以上説明した情報処理方法は、以下に説明する情報処理装置において実行することができる。図６を用いて、情報処理装置のソフトウェア構成を説明する。図６は、実施形態の情報処理装置におけるソフトウェア構成の一例を示すブロック図である。

【0058】

図６において、情報処理装置１は、ネットワーク９を介して、文書データベース２および利用者端末３と通信可能に接続されている。文書データベース２は、被検索対象の文書を複数記憶することができる。文書データベースに記憶された文書は、複数の文章を有する文書であって、例えば特許文献である。利用者端末３は、情報処理装置１を利用する利用者が操作する端末である。利用者端末３は検索アプリ３１を有する。検索アプリ３１は、情報処理装置１を介して文書データベース２に記憶された文書を検索するアプリであって、上述した検索処理Ｓ２の処理を情報処理装置１に実行させる。検索アプリ３１は、検索処理２の処理を専用に行うアプリであってもよく、また、Ｗｅｂブラウザ等の汎用のアプリであってもよい。ネットワーク９は、有線または無線を介したネットワークであり、例えばインターネットである。

【0059】

なお、図６は情報処理装置１の接続先を例示するものであり、情報処理装置１の接続先を限定するものではない。例えば、情報処理装置１は、複数の文書データベース２または複数の利用者端末３と接続されるものであってもよい。また、図６は、情報処理装置１と文書データベース２とがネットワーク９を介して接続される場合を示したが、情報処理装置１と文書データベース２は、ネットワーク９を介さない一体の装置またはシステムにおいて構成されるものであってもよい。

【0060】

情報処理装置１は、文字列生成部１１、連番付与部１２、行列生成部１３、キーワード取得部１４、入力ベクトル生成部１５、出力ベクトル生成部１６、判定部１７および行列保存部１８を有する。なお、情報処理装置１は、図１等において説明した情報処理方法を実行する装置である。情報処理装置１における、文字列生成部１１、連番付与部１２、行列生成部１３、キーワード取得部１４、入力ベクトル生成部１５、出力ベクトル生成部１６、判定部１７および行列保存部１８は、本実施形態における情報処理を実行するための情報処理プログラム（ソフトウェア）によって実現される機能モジュールであるものとして説明する。

【0061】

文字列生成部１１は、データベースに記憶された複数の被検索対象の文書に含まれる文字をこの文書の先頭からスキャンして最初に出現する文字を文字の種類毎に文字列として生成する。文字列生成部１１は、図１において説明した文字列生成処理Ｓ１１を実行する。

【0062】

連番付与部１２は、データベースに記憶された複数の被検索対象の文書に含まれる文字に対して文章毎に連番を付与する。連番付与部１２は、図１において説明した連番付与処理Ｓ１２を実行する。

【0063】

行列生成部１３は、データベースに記憶された複数の被検索対象の文書が有する文章に含まれる文字が文字列生成部１１において生成された文字列に含まれるか否かを示す数字列を被検索対象の文書が有する文章毎に並べた行列を生成する。行列生成部１３は、図１において説明した行列生成処理Ｓ１３を実行する。

【0064】

キーワード取得部１４は、検索対象のキーワードを取得する。キーワード取得部１４は、図１において説明したキーワード取得処理Ｓ２１を実行する。

【0065】

入力ベクトル生成部１５は、キーワード取得部１４において取得されたキーワードに含まれる文字が文字列生成部１１において生成された文字列に含まれるときは要素を真値とする、文字列の大きさを有する入力ベクトルを生成する。入力ベクトル生成部１５は、図１において説明した入力ベクトル生成処理Ｓ２２を実行する。

【0066】

出力ベクトル生成部１６は、入力ベクトル生成部１５で生成された入力ベクトルと行列生成部１３において生成された行列との積を演算して出力ベクトルを生成する。出力ベクトル生成部１６は、図１において説明した出力ベクトル生成処理Ｓ２３を実行する。

【0067】

判定部１７は、出力ベクトル生成部１６において生成された出力ベクトルの要素の真値の数を判定する。判定部１７は、図１において説明した判定処理Ｓ２４を実行する。

【0068】

行列保存部１８は、行列生成部１３において生成された行列を保存する。行列保存部１８は、図１において説明した行列保存Ｓ１４を実行する。

【0069】

なお、情報処理装置１が有する上述の各機能部は、情報処理装置１の機能部の一例を示したものであり、情報処理装置１が有する機能を限定したものではない。例えば、情報処理装置１は、上記全ての機能部を有している必要はなく、一部の機能部を有するものであってもよい。また、情報処理装置１は、上記以外の他の機能を有するものであってもよい。例えば、情報処理装置１は、情報を入力するために入力機能、情報を表示するための表示機能、装置の稼働状態を報知する報知機能等を有していてもよい。

【0070】

また、情報処理装置１が有する上記各機能部は、上述の通り、ソフトウェアによって実現されるものとして説明した。しかし、情報処理装置１が有する上記機能部の中で少なくとも１つ以上の機能部は、ハードウェアによって実現されるものであってもよい。

【0071】

また、情報処理装置１が有する上記何れかの機能部は、１つの機能部を複数の機能部に分割して実施してもよい。また、情報処理装置１が有する上記何れか２つ以上の機能部を１つの機能部に集約して実施してもよい。情報処理装置１は、情報処理装置１が有するそれぞれの機能をそれぞれの機能ブロックで表現したものであり、プログラムファイル数等の物理的な構成を限定するものではない。例えば、各機能部がそれぞれ別個のプログラムファイル等で構成されていてもよく、また複数の機能部が１つのプログラムファイル等で構成されていてもよい。

【0072】

また、情報処理装置１は、１つの筐体によって実現される装置であっても、ネットワーク等を介して接続された複数の装置から実現されるシステムであってもよい。例えば、情報処理装置１は、その機能の一部または全部をクラウドコンピューティングシステムによって提供されるクラウドサービス等、他の仮想的な装置によって実現するものであってもよい。また、情報処理装置１は、上記各機能部のうち、少なくとも１以上の機能部を他の装置において実現するようにしてもよい。また、情報処理装置１は、デスクトップＰＣ等の汎用的なコンピュータであってもよく、機能が限定された専用の装置であってもよい。

【0073】

次に、図７を用いて、情報処理装置１のハードウェア構成を説明する。図７は、実施形態における情報処理装置１のハードウェア構成の一例を示すブロック図である。

【0074】

情報処理装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０３、Ｉ／Ｏ機器１０４、および通信Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）１０５を有する。情報処理装置１は、図１で説明した情報処理プログラムを実行する装置である。

【0075】

ＣＰＵ１０１は、ＲＡＭ１０２またはＲＯＭ１０３に記憶された情報処理プログラムを実行することにより、情報処理装置１の制御を行う。情報処理プログラムは、例えば、プログラムを記録した記録媒体、又はネットワークを介したプログラム配信サーバ等から取得されて、ＲＯＭ１０３にインストールされ、ＣＰＵ１０１から読出されて実行される。

【0076】

Ｉ／Ｏ機器１０４は、操作入力機能と表示機能（操作表示機能）を有する。Ｉ／Ｏ機器１０４は、例えばタッチパネルである。タッチパネルは、情報処理装置１の利用者に対して指先又はタッチペン等を用いた操作入力を可能にする。本実施形態におけるＩ／Ｏ機器１０４は、操作表示機能を有するタッチパネルを用いることができるが、Ｉ／Ｏ機器１０４は、表示機能を有する表示装置と操作入力機能を有する操作入力装置とを別個有するものであってもよい。その場合、タッチパネルの表示画面は表示装置の表示画面、タッチパネルの操作は操作入力装置の操作として実施することができる。なお、Ｉ／Ｏ機器１０４は、ヘッドマウント型、メガネ型、腕時計型のディスプレイ等の種々の形態によって実現されてもよい。

【0077】

通信Ｉ／Ｆ１０５は、通信用のＩ／Ｆである。通信Ｉ／Ｆ１０５は、例えば、無線ＬＡＮ、有線ＬＡＮ、赤外線等の近距離無線通信を実行する。図は通信用のＩ／Ｆとして通信Ｉ／Ｆ１０５のみを図示するが、情報処理装置１は複数の通信方式においてそれぞれの通信用のＩ／Ｆを有するものであってもよい。

【0078】

なお、本実施形態で説明した装置を構成する機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、本実施形態の上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

【0079】

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現するもの、いわゆる差分ファイル（差分プログラム）であっても良い。

【0080】

以上、本発明の実施形態について、図面を参照して説明してきたが、具体的な構成はこの実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲においての種々の変更も含まれる。

【符号の説明】

【0081】

１情報処理装置
１１文字列生成部
１２連番付与部
１３行列生成部
１４キーワード取得部
１５入力ベクトル生成部
１６出力ベクトル生成部
１７判定部
１８行列保存部
２文書データベース
３利用者端末
３１検索アプリ
９ネットワーク
１０１ＣＰＵ
１０２ＲＡＭ
１０３ＲＯＭ
１０４Ｉ／Ｏ機器
１０５通信Ｉ／Ｆ

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版