IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社島津製作所の特許一覧

<>
  • 特許-事例検索方法 図1
  • 特許-事例検索方法 図2
  • 特許-事例検索方法 図3
  • 特許-事例検索方法 図4
  • 特許-事例検索方法 図5
  • 特許-事例検索方法 図6
  • 特許-事例検索方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-23
(45)【発行日】2022-05-31
(54)【発明の名称】事例検索方法
(51)【国際特許分類】
   G06F 16/26 20190101AFI20220524BHJP
【FI】
G06F16/26
【請求項の数】 6
(21)【出願番号】P 2020551630
(86)(22)【出願日】2018-10-16
(86)【国際出願番号】 JP2018038475
(87)【国際公開番号】W WO2020079750
(87)【国際公開日】2020-04-23
【審査請求日】2021-04-15
(73)【特許権者】
【識別番号】000001993
【氏名又は名称】株式会社島津製作所
(74)【代理人】
【識別番号】100179969
【弁理士】
【氏名又は名称】駒井 慎二
(74)【代理人】
【識別番号】100173532
【弁理士】
【氏名又は名称】井上 彰文
(72)【発明者】
【氏名】森本 健太郎
【審査官】森田 充功
(56)【参考文献】
【文献】特開2008-276768(JP,A)
【文献】特開2014-153744(JP,A)
【文献】国際公開第2008/062910(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 - 16/958
(57)【特許請求の範囲】
【請求項1】
データベースに蓄積された検索対象事例の中から所定の事例を検索する事例検索方法であって、
前記検索対象事例を構成する文章を形態素解析により複数の単語に分割する工程と、
前記文章中における前記複数の単語の出現頻度分布を求める工程と、
前記出現頻度分布に対して曲線をフィッティングして前記出現頻度分布に出現した単語から所定の頻出単語を除去する閾値を設定する工程と、
前記閾値によって前記所定の頻出単語が除去された文章からなる検索対象事例を学習によってベクトル化する工程と、
を備え、
前記ベクトル化された検索対象事例を前記所定の事例の検索対象とすることを特徴とする事例検索方法。
【請求項2】
前記曲線はべき分布に従う曲線であることを特徴とする請求項に記載の事例検索方法。
【請求項3】
前記べき分布に対する前記出現頻度分布をもとに前記閾値を設定することを特徴とする請求項に記載の事例検索方法。
【請求項4】
前記形態素に分割された単語の前記べき分布からの外れ具合をもとに前記閾値を設定することを特徴とする請求項に記載の事例検索方法。
【請求項5】
前記検索対象事例を構成する文書ごとに、あるいはすべての文書を一括して前記出現頻度分布を求めることを特徴とする請求項1に記載の事例検索方法。
【請求項6】
前記検索対象事例は、所定の試料についての分析レポート、分析関連論文、分析関連特許文献のうち少なくとも1つを含むことを特徴とする請求項1~のいずれか1項に記載の事例検索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、大量の検索事例から所望の事例を検索する事例検索方法に関する。
に関する。
【背景技術】
【0002】
近年におけるコンピュータ技術、通信網の発達により、電子化された大量の文書、情報等が蓄積されたデータベースから所望の文書データ、情報等を検索する需要が高まっている。一般的な情報検索システムでは、検索者が検索したい内容を最もよく表している検索語(キーワード)を入力することで、文書データ等が蓄積されたデータベースに対して検索処理(検索語とのマッチング処理)が実行され、特定の条件に合致する文書データが検索結果として出力される。
【0003】
大量の文書データから所望の文書を検索する方法として、従来より、自然言語処理を活用した文書データの検索が行われている。自然言語処理(NLP:Natural Language Processing)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。
【0004】
人工知能分野の自然言語処理では、機械学習を応用した単語のベクトル化が中心的な技術となっている。例えば、自然言語処理で用いられる「形態素解析」は、文章やフレーズを、意味を持つ最小限の単位(単語)に分割し、品詞等を判別する処理である。
【0005】
機械学習とは、データから反復的に学習し、そこに潜むパターン(特徴)を見つけ出して、そのデータを分類することである。学習した結果を新たなデータに当てはめて予測することが可能になる。自然言語処理における機械学習では、大量の文章情報を処理(ニューラルネットワークで学習)し、前後に出現する単語の分布からある単語を表すベクトル空間を作成する。
【0006】
例えば、特許文献1は、データベース中のすべての文書データそれぞれに出現する形態素を取得し、その形態素から異なる表記の形態素の集合を語彙として得て、文書に出現する単語の頻度を利用して文書の特徴を解析する際、文書のスタイルに相当する単語の出現頻度の影響を抑える技術を開示している。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2014-170377号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述した機械学習による単語の意味認識では、例えば、文章の学習により、ある単語の前後に出現する単語の分布からベクトルを作成し、ベクトル同士の距離を類似度と捉えて、解釈する。さらに、意味の近しい事柄について述べられた文章は、類似した単語を用いて記述されていると仮定する。この仮定のもとでは、文章中に記述された単語の出現頻度から、その文章のベクトルを作成することが可能となり、文章と文章のベクトル間距離が、文書間の類似度となる。
【0009】
分析レポート、技術レポート、技術論文、研究論文等、専門用語が多用された文書の学習では、例えば、「クロマトグラフ」、「カラム」等の単語が頻出する。分析レポートの場合、フォーマットや対象物質が異なっていても、文章の傾向が似通っており、頻出する単語の使い方にも特徴がある。
【0010】
例えば、液体クロマトグラフのような装置は、様々な試料の分析が可能であり、そのアプリケーションニュース、アプリケーションノートは多数あるが、例えば、「~という試料を、~によって前処理し、~カラムを用いて、~を溶媒とした以下の分析条件で液体クロマトグラフを用いて測定し、検量線を作成して定量した」といった定型文に近い形式になることが多い。
【0011】
上記例示した文章において、「クロマトグラフ」、「溶媒」、「カラム」等の単語は、その文書中では重要な意味を持つが文書中での頻出語となり、それぞれの単語の意味を説明する単語としては不要となる。よって、このような頻出単語を含む文書をそのまま学習させることは、頻出単語が学習の性能、学習の精度を低下させるという問題がある。特許文献1は、文書中で出現頻度の高い単語を除去する構成を開示していない。
【0012】
本発明は、上述した課題に鑑みなされたものであり、その目的とするところは、学習の対象とする事例から頻出単語を効率的に取り除き、学習性能を向上させた事例検索システムを提供することである。
【課題を解決するための手段】
【0013】
上述した課題を解決する一手段として、本発明は、データベースに蓄積された検索対象事例の中から所定の事例を検索する事例検索方法であって、前記検索対象事例を構成する文章を形態素解析により複数の単語に分割する工程と、前記文章中における前記複数の単語の出現頻度分布を求める工程と、前記出現頻度分布に出現した単語から所定の頻出単語を除去する閾値を設定する工程と、前記閾値によって前記所定の頻出単語が除去された文章からなる検索対象事例を学習によってベクトル化する工程とを備え、前記ベクトル化された検索対象事例を前記所定の事例の検索対象とすることを特徴とする。
【0014】
上記の事例検索方法において、好ましくは、前記出現頻度分布に対して曲線をフィッティングして前記所定の頻出単語を除去する。また、好ましくは、前記曲線はべき分布に従う曲線である。また、好ましくは、前記べき分布に対する前記出現頻度分布をもとに前記閾値を設定する。また、好ましくは、前記形態素に分割された単語の前記べき分布からの外れ具合をもとに前記閾値を設定する。また、好ましくは、前記検索対象事例を構成する文書ごとに、あるいはすべての文書を一括して前記出現頻度分布を求める。また、好ましくは、前記所定の事例を検索するための検索文字列に対して形態素解析する工程をさらに備える。さらに、好ましくは、前記検索対象事例、前記文書、前記文章、および前記検索文字列は、所定の試料についての分析レポート、分析関連論文、分析関連特許文献、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名のうち少なくとも1つを含む。
【発明の効果】
【0015】
本発明によれば、検索対象事例から頻出単語を除去する前処理を行い、高頻度単語が除去された文書からなる検索対象事例を学習対象とするので、学習を効率的に行うことができる。
【図面の簡単な説明】
【0016】
図1】本発明の実施形態に係る事例検索システムの構成の一例を示すブロック図である。
図2】事例データベースに蓄積された文書から所定の単語を除去する単語除去処理部の構成を示すブロック図である。
図3】事例文書に含まれる単語の頻度(分布状態)をプロットした図である。
図4】単語の頻度プロットをべき分布になるようにフィッティングした様子を示す図である。
図5】検索対象を学習によってベクトル化する前に実行される前処理を時系列で示すフローチャートである。
図6】前処理後の検索対象に対する検索処理を示すフローチャートである。
図7】事例検索システムをネットワークを介して接続した構成を示す図である。
【発明を実施するための形態】
【0017】
以下、本発明に係る実施形態について添付図面を参照して詳細に説明する。図1は、本発明の実施形態に係る事例検索システムの構成の一例を示すブロック図である。図1の事例検索システム10は、入力部1、事例検索部3、出力部5を備える。また、事例検索部3は、解析部11、特徴抽出部13、事例判定部15、事例抽出部17、単語除去処理部21を備える。
【0018】
事例検索システム10は、検索対象である大量の事例が蓄積された事例データベース30をアクセス可能に構成されている。事例検索システム10は、検索者(ユーザ等ともいう。)が検索語として入力した検索キーワード、文章等に対して、形態素解析により所定の単語を抽出し、抽出された単語を用いて事例データベース30中の事例を検索する。
【0019】
なお、本実施形態に係る事例検索システムにおける検索対象事例には、例えば、分析レポート、分析関連論文、分析関連特許文献等が含まれる。ここで分析レポートとは、例えば、「試料△△の残留農薬を装置〇〇を使用して分析した。」等の分析事例、分析結果のレポートであり、アプリケーションニュース、アプリケーションノートも分析レポートに含まれる。
【0020】
検索キーワードには、例えば、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名等が含まれる。
【0021】
入力部1には、ユーザ等により、検索対象を文字、文章等で表した検索文字列(検索キーワード、検索クエリともいう。)が入力される。入力部1は、例えば、キーボード、マウス等の入力デバイス、ディスプレイ等からなり、ディスプレイ上の入力画面を使用して検索キーワードが入力される。ディスプレイは、検索結果等が表示される出力部5でもある。
【0022】
解析部11は、入力部1より入力された検索キーワードに対して、あらかじめ定義された検索辞書をもとに形態素解析を行って、最小単位の単語に分割する。そして、検索キーワードを特徴づけるベクトル(単語べクトル、あるいは特徴べクトル)を算出する。特徴抽出部13は、形態素解析の結果を受けて、検索キーワードの特徴を抽出する。
【0023】
事例判定部15は、特徴抽出部13より取得した検索キーワードの特徴をもとに、事例データベース30に格納された事例(文書データ)を検索する。事例データベース30中の文書データは、ベクトルにより特徴づけられた文書データであり、後述する単語除去処理という前処理を行った後にベクトル化された事例データである。
【0024】
すなわち、事例判定部15は、単語除去処理が施された文書データと、特徴べクトルで示される検索キーワードとの類似度を算出し、それらの一致度あるいは類似度に基づいて、事例データベース30中における、検索キーワードで示される文書データの有無を判定する。
【0025】
事例抽出部17は、事例判定部15からの判定結果を受けて、検索クエリと類似する文書データを事例データベース30より抽出し、それを出力部5に出力する。これによりユーザ等は、所望の事例(例えば、分析事例等)を文書データとして取得できる。
【0026】
次に、本実施形態の事例検索システムを構成する単語除去処理部について説明する。図2は、図1の事例検索システム1において事例データベース30に蓄積された文書から所定の単語を除去する単語除去処理部21の構成を示すブロック図である。
【0027】
単語除去処理部21の形態素解析部23は、事例データベース30に蓄積されているすべての事例文書に対して形態素解析によって単語に分割し、その単語の意味表現である単語ベクトルを構築する。ここでは、文章中に登場する単語は、その前後の語によって説明されることから、前後に出現する単語の分布から、各々の単語を表すベクトル空間を作成する。
【0028】
形態素解析の結果は、各々の単語を座標軸とする多次元ベクトル空間を有するコーパス31に、例えば単語の使用頻度等に応じてベクトルマップした単語ベクトルとして格納される。単語のベクトル空間におけるベクトル同士の距離(形態素間の関係)は、単語間の意味的な類似度を表すことになる。
【0029】
単語プロット部41は、コーパス31中の複数の単語を、例えば文書ごとに、出現する頻度順にプロットする。図3は、事例としての分析レポートに出現した単語を頻度順にプロットした一例である。図3に示す例では、クロマトグラフに関連した水質検査や食品検査などの分析レポートおいて「クロマトグラフ」、「分析」、「条件」等の単語の出現頻度が高く、「フタル酸エステル」、「メラミン」、「ホルムアルデヒド」等の出現頻度が低いことが分かる。
【0030】
すなわち、分析レポートの文書において検索対象である化合物等の検索キーワードは、比較的低頻度の単語であり、ほとんどの分析レポートに共通するクロマトグラフ、分析、条件等の単語は頻出語である。
【0031】
頻度分析部43は、図3に示す単語の頻度プロットから単語の分布状態を分析し、頻度プロットに対してカーブフィッティング(曲線回帰)を行う。一般的に頻度プロットにおいて高頻度の項目はべき分布、あるいはジップ(Zipf)の法則に従うとされている。ここでは、べき分布に従うと仮定して、頻度分析部43は、図4に示すように単語の頻度プロットがべき分布になるような曲線51をフィッティングする。
【0032】
フィッティングにより、頻度分析部43は、べき分布から外れる単語と、べき分布に追従する単語とを峻別し、べき分布からの外れ具合に基づいて閾値を決定する。図4に示す例では、縦軸(頻度)に対して水平に引いた一点鎖線53を閾値として、横軸に示す出現単語のうち、この閾値を超える単語群55を頻出単語とし、閾値内の単語群57を比較的低頻度の単語、すなわち、検索対象となり得る単語とする。なお、べき分布から外れる程度(外れ具合)は、分布を見て適宜、決めるといったチューニングが必要なパラメータである。
【0033】
単語除去部45は、頻度分析部43における分布解析の結果を受けて、頻出単語である単語群55を、コーパス31に格納された単語ベクトルの学習時に除去する。
【0034】
次に、本実施形態の事例検索システムにおける検索処理手順について説明する。図5は、検索対象を学習によってベクトル化する前に実行される前処理を時系列で示すフローチャートである。また、図6は、前処理後の検索対象に対する検索処理を示すフローチャートである。
【0035】
図5のステップS11において、事例データベース30に格納されている検索対象事例(文書データ)を、既存の辞書を使用した形態素解析により複数の単語に分割する。続くステップS13で、分割された複数の単語を出現する頻度順にプロットして、頻度プロット(図3参照)を作成する。上記のように文書ごとに頻度プロットを作成してもよいし、全文書を一括した頻度プロットを作成してもよい。
【0036】
ステップS15では、ステップS13で作成された頻度プロットから単語の分布状態を分析(頻度分析)し、図4を参照して説明したように、頻度プロットがべき分布になるような曲線をフィッティングする。そして、ステップS17において、フィッティングにより単語がべき分布から外れる程度をもとに閾値を決定し、べき分布から外れる単語と、べき分布に追従する単語とを峻別する。具体的には、閾値を超える単語を頻出単語として除去し、閾値内の単語を検索対象となり得る単語とする。
【0037】
ステップS19では、検索対象事例の文書を構成する単語のうち、上記の頻出単語を事例データベース30の文書から除去した後の文書からなる検索対象事例を、次のステップにおける学習によってベクトル化する対象として取得する。
【0038】
すなわち、ステップS31では、上記の前処理によって高頻度単語が除去された文書からなる検索対象事例を学習によってベクトル化する。これにより、例えば、ベクトル化された単語と事例文書を得る。
【0039】
次に、本実施形態の事例検索システムにおける検索処理について説明する。ユーザ等が本実施形態の事例検索システムを使用して必要な事例を取得する場合、最初に図6のステップS21において、ユーザ等により検索文字列(検索キーワード)が入力される。
【0040】
ステップS23では、形態素解析により検索キーワードを最小単位の形態素(単語ベクトル)に分割する。そして、ステップS25において、形態素解析された検索キーワードをもとに、図5のステップS31における学習によってベクトル化された検索対象事例を検索する。
【0041】
ステップS27において、ステップS25における検索処理の結果を受けて、ユーザ等が入力した検索キーワードに合致する事例、あるいは検索要求に最も近い事例が出力される。検索された事例は、例えば、そのタイトル等による事例一覧の形で出力される。ユーザは、出力された事例一覧の中から適当な事例を選択する。
【0042】
図7は、本実施形態の事例検索システムをネットワーク(公衆通信網)を介して接続した構成を示している。図7に示すように本実施形態に係る事例検索システム10は、例えばインターネット環境において、ユーザ等からの要求に応じて事例の検索を可能にし、また、検索結果をユーザ等に提供する。
【0043】
そのため、インターネット等の情報通信ネットワーク70を介して、事例検索システム10と、複数のユーザ端末60a…60nとが通信可能に接続されている。事例検索システム10内の通信部61は、ネットワーク70とのインターフェイスである。制御部65は、事例検索部3を含む事例検索システム10の全体の制御を司る、例えばマイクロプロセッサ等で構成される。
【0044】
メモリ67には、上述した検索対象を学習によってベクトル化する前に実行される前処理のプログラム、前処理後の検索対象に対する検索処理のプログラム等が格納されている。制御部65は、これらのプログラムを読み出して、上述した所定の処理を実行する。
【0045】
なお、事例検索システム10全体をネットワーク70に接続されたサーバ装置と位置づけることもできる。
【0046】
以上説明したように本実施形態によれば、検索対象事例(文書データ)における単語の出現頻度のプロットがべき分布になるような曲線をフィッティングして、単語がべき分布から外れる程度をもとに決定した閾値より、検索対象事例から頻出単語を除去する前処理を行う。そして、前処理によって高頻度単語が除去された文書からなる検索対象事例を学習対象とする。
【0047】
すなわち、文書中において頻出語とそうでない単語を峻別して、ある単語の前後に頻繁に出現する単語については、事例中にはその単語を含まないとして、他の単語について形態素解析する。その結果、頻出語については、単語の意味を認識するための学習においては不要となるので、学習を効率的に行うことができる。
【0048】
また、検索対象事例として同一分野の分析レポートを事例データベースに追加する限り、検索結果において同じ検索精度を維持できる。
【符号の説明】
【0049】
1 入力部
3 事例検索部
5 出力部
10 事例検索システム
11 解析部
13 特徴抽出部
15 事例判定部
17 事例抽出部
21 単語除去処理部
23 形態素解析部
30 事例データベース
31 コーパス
41 単語プロット部
43 頻度分析部
45 単語除去部
60a…60n ユーザ端末
65 制御部
67 メモリ
70 情報通信ネットワーク
図1
図2
図3
図4
図5
図6
図7