(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024151487
(43)【公開日】2024-10-25
(54)【発明の名称】辞書作成システム、辞書作成方法及び辞書作成プログラム
(51)【国際特許分類】
G06F 40/242 20200101AFI20241018BHJP
【FI】
G06F40/242
【審査請求】有
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023064858
(22)【出願日】2023-04-12
(71)【出願人】
【識別番号】592131906
【氏名又は名称】みずほリサーチ&テクノロジーズ株式会社
(74)【代理人】
【識別番号】100105957
【弁理士】
【氏名又は名称】恩田 誠
(74)【代理人】
【識別番号】100068755
【弁理士】
【氏名又は名称】恩田 博宣
(72)【発明者】
【氏名】太田 英寿
(72)【発明者】
【氏名】吉永 和史
(72)【発明者】
【氏名】江上 和明
(72)【発明者】
【氏名】木村 淳
(57)【要約】
【課題】特定分野において用いられる専門用語を集めた辞書を効率的に作成するための辞書作成システム、辞書作成方法及び辞書作成プログラムを提供する。
【解決手段】支援サーバ20は、対象文書を記録した文書記憶部22と、対象文書から専門用語を抽出する制御部21と、を備える。制御部21が、対象文書の形態素分析結果に連接ルールを適用して第1用語群を抽出する連接ルール適用処理と、対象文書から、分かち書き処理によって第2用語群を抽出する分かち書き抽出処理とを実行する。更に、制御部21は、連接ルール適用処理及び分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理を実行する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備えた辞書作成システムであって、
前記制御部が、
前記対象文書の形態素分析結果に連接ルールを適用して第1用語群を抽出する連接ルール適用処理と、
前記対象文書から、分かち書き処理によって第2用語群を抽出する分かち書き抽出処理と、
前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行することを特徴とする辞書作成システム。
【請求項2】
前記制御部が、前記連接ルール適用処理において、専門用語となりうる品詞の組み合わせパターンによって前記第1用語群を抽出することを特徴とする請求項1に記載の辞書作成システム。
【請求項3】
前記制御部が、前記連接ルール適用処理において、所定の用語を連接した場合の出現頻度の減少に応じて専門用語候補を削除することを特徴とする請求項1又は2に記載の辞書作成システム。
【請求項4】
前記制御部が、前記連接ルール適用処理において、前記対象文書と異なるカテゴリの文書に含まれる用語を除外することを特徴とする請求項1又は2に記載の辞書作成システム。
【請求項5】
前記分かち書き抽出処理において、
前記対象文書と一般文書とを合わせて、単語の重要度を算出する第1言語モデルを生成し、
前記第1言語モデルを用いて、前記対象文書において各単語の第1重要度を算出し、
前記第1言語モデルを用いて、前記一般文書において各単語の第2重要度を算出し、
前記対象文書のみから抽出された単語と、前記対象文書と一般文書とで共通する単語であって、前記第1重要度が前記第2重要度よりも高い単語と、を用いて、前記用語辞書を作成することを特徴とする請求項1に記載の辞書作成システム。
【請求項6】
前記分かち書き抽出処理において、
前記対象文書を用いて、単語の重要度を算出する第2言語モデルを生成し、
一般文書を用いて、単語の重要度を算出する第3言語モデルを生成し、
前記第2言語モデルを用いて前記対象文書から抽出した単語と、前記第3言語モデルを用いて前記一般文書から抽出した単語と、を比較して、前記用語辞書を作成することを特徴とする請求項1に記載の辞書作成システム。
【請求項7】
対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備えた辞書作成システムを用いて、用語辞書を作成する方法であって、
前記制御部が、
前記対象文書の形態素分析結果に連接ルールを適用して第1用語群を抽出する連接ルール適用処理と、
前記対象文書から、分かち書き処理によって第2用語群を抽出する分かち書き抽出処理と、
前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行することを特徴とする辞書作成方法。
【請求項8】
対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備えた辞書作成システムを用いて、用語辞書を作成するためのプログラムであって、
前記制御部を、
前記対象文書の形態素分析結果に連接ルールを適用して第1用語群を抽出する連接ルール適用処理と、
前記対象文書から、分かち書き処理によって第2用語群を抽出する分かち書き抽出処理と、
前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行する手段として機能させるための辞書作成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、特定の分野において用いられる専門用語を集めた辞書を作成するための辞書作成システム、辞書作成方法及び辞書作成プログラムに関する。
【背景技術】
【0002】
特定の分野において、専門用語を用いることがある。このような専門用語を集めて用語集(辞書)を作成する技術が検討されている(例えば、特許文献1を参照。)。この特許文献に記載された用語辞書作成装置は、文書に対し、形態素解析を実行する。次に、文書から抽出された形態素に基づいて、文書の中で名詞が連続する部分を用語候補として取得する。次に、用語候補の出現頻度を計算する。用語候補の出現頻度に基づいて、用語辞書を作成する。
【0003】
また、各単語における感情的な価値は、分野や文脈によって異なる。このような価値を導出する技術も検討されている(例えば、非特許文献1を参照。)。また、金融市場について書かれた文章を語彙ベースによるセンチメント分析によって評価をする技術も検討されている(例えば、非特許文献2を参照。)。この文献に記載された技術では、単語の係り受けネットワークの表現学習を用いて単語の分散表現を獲得するとともに、得られた分散表現を用いた金融専門の極性辞書を構築する。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【非特許文献1】William L Hamilton、“Inducing Domain-Specific Sentiment Lexicons from Unlabeled Corpora”、[online],2016年、Cornell University、[令和5年3月22日検索],インターネット<URL:https://arxiv.org/pdf/1606.02820.pdf>
【非特許文献2】伊藤諒他、“ネットワークの表現学習による金融専門極性辞書の構築”,[online],2017年,一般社団法人人工知能学会,2017年度人工知能学会全国大会(第31回),p.1-3[令和5年2月23日検索],インターネット<URL:https://www.jstage.jst.go.jp/article/pjsai/JSAI2017/0/JSAI2017_2D3OS19a4/_pdf/-char/ja>
【発明の概要】
【発明が解決しようとする課題】
【0006】
文書から、出現頻度を用いて専門用語候補を抽出する場合、専門用語だけではなく、出現頻度が高い一般用語も混在することになる。この場合、専門用語に絞り込んだ辞書を作成することができない。
【課題を解決するための手段】
【0007】
上記課題を解決する辞書作成システムは、対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備える。そして、前記制御部が、前記対象文書の形態素分析結果に連接ルールを適用して第1用語群を抽出する連接ルール適用処理と、前記対象文書から、分かち書き処理によって第2用語群を抽出する分かち書き抽出処理と、前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行する。
【発明の効果】
【0008】
本開示によれば、特定分野において用いられる専門用語を集めた辞書を効率的に作成することができる。
【図面の簡単な説明】
【0009】
【
図1】実施形態の辞書作成システムの説明図である。
【
図2】実施形態のハードウェア構成の説明図である。
【発明を実施するための形態】
【0010】
図1~
図6に従って、辞書作成システム、辞書作成方法及び辞書作成プログラムを具体化した一実施形態を説明する。本実施形態では、特定の業務(例えば銀行業務)で用いる用語を蓄積した辞書を作成する場合を想定する。
【0011】
図1に示すように、本実施形態の辞書作成システムは、ユーザ端末10、支援サーバ20、公開文書サイト30を用いる。
(ハードウェア構成例)
図2は、ユーザ端末10、支援サーバ20、公開文書サイト30等として機能する情報処理装置H10のハードウェア構成例である。
【0012】
情報処理装置H10は、通信装置H11、入力装置H12、表示装置H13、記憶装置H14、プロセッサH15を有する。なお、このハードウェア構成は一例であり、他のハードウェアを有していてもよい。
【0013】
通信装置H11は、他の装置との間で通信経路を確立して、データの送受信を実行するインタフェースであり、例えばネットワークインタフェースや無線インタフェース等である。
【0014】
入力装置H12は、利用者等からの入力を受け付ける装置であり、例えばマウスやキーボード等である。表示装置H13は、各種情報を表示するディスプレイやタッチパネル等である。
【0015】
記憶装置H14は、ユーザ端末10、支援サーバ20、公開文書サイト30の各種機能を実行するためのデータや各種プログラムを格納する記憶装置である。記憶装置H14の一例としては、ROM、RAM、ハードディスク等がある。
【0016】
プロセッサH15は、記憶装置H14に記憶されるプログラムやデータを用いて、ユーザ端末10、支援サーバ20、公開文書サイト30における各処理を制御する。プロセッサH15の一例としては、例えばCPUやMPU等がある。このプロセッサH15は、ROM等に記憶されるプログラムをRAMに展開して、各種処理に対応する各種プロセスを実行する。例えば、プロセッサH15は、ユーザ端末10、支援サーバ20のアプリケーションプログラムが起動された場合、後述する各処理を実行するプロセスを動作させる。
【0017】
プロセッサH15は、自身が実行するすべての処理についてソフトウェア処理を行なうものに限られない。例えば、プロセッサH15は、自身が実行する処理の少なくとも一部についてハードウェア処理を行なう専用のハードウェア回路(例えば、特定用途向け集積回路:ASIC)を備えてもよい。すなわち、プロセッサH15は、以下で構成し得る。
【0018】
(1)コンピュータプログラム(ソフトウェア)に従って動作する1つ以上のプロセッサ
(2)各種処理のうち少なくとも一部の処理を実行する1つ以上の専用のハードウェア回路、或いは
(3)それらの組み合わせ、を含む回路(circuitry)
プロセッサは、CPU並びに、RAM及びROM等のメモリを含み、メモリは、処理をCPUに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。
【0019】
(各情報処理装置の機能)
図1を用いて、ユーザ端末10、支援サーバ20、公開文書サイト30の機能を説明する。
【0020】
ユーザ端末10は、本システムを利用するユーザが用いるコンピュータ端末である。
支援サーバ20は、辞書を作成するための自然言語処理を行なうコンピュータシステムである。この支援サーバ20は、制御部21、文書記憶部22、辞書記憶部23を備えている。
【0021】
制御部21は、後述する処理(管理段階、形態素分析段階、分割処理段階、重要度評価段階、極性付与段階等を含む処理)を行なう。このための辞書作成プログラムを実行することにより、制御部21は、管理部211、形態素分析部212、分割処理部213、重要度評価部214、極性付与部215等として機能する。
【0022】
管理部211は、形態素分析部212、分割処理部213、重要度評価部214、極性付与部215を管理する処理を実行する。管理部211は、専門用語となりうる品詞の組み合わせパターン、すなわち連接ルールを保持する。この連接ルールは、不要語を削除する場合の閾値(頻度)、過剰に連接した用語を削除する閾値(頻度)をパラメータとして保持している。例えば、専門用語候補としての「免責的債務引受契約」について、用語「契約」を連接する場合、「免責的債務引受」と「免責的債務引受契約」の出現頻度を調べる。「免責的債務引受」の出現頻度に対して、「免責的債務引受契約」の閾値以上で出現頻度が減少する場合には、「免責的債務引受契約」を専門用語として抽出しない。また、管理部211は、不要語リストを保持する。この不要語リストには、「当社、当該、本件、各行、可否」等、専門用語ではない単語が記録されている。
【0023】
形態素分析部212は、文章の文法や、単語の品詞等の情報に基づき、形態素(言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する処理を実行する。
【0024】
分割処理部213は、分かち書きツールにより、文章を単語(サブワード)に分割する分かち書き処理を実行する。分割処理部213としては、分かち書きツールとして、例えば、「SentencePiece」を用いる。この「SentencePiece」では、意味がある単語にとらわれずに、連続して出現する頻度が高い文字の集まりを基準に、分かち書きを行なう。具体的には、まず、文章を単語に分割し(サブワード・セグメンテーション)、各単語の頻度を求める。次に、高頻度単語は1語彙として扱い、低頻度単語はより短い語彙に分割する。そして、語彙数が事前に指定した数になるまで、分割を繰り返す。この「SentencePiece」では、語彙ファイルの語彙数(サイズ)をパラメータとして保持している。
【0025】
重要度評価部214は、対象文書に含まれる各用語の重要度を評価する処理を実行する。重要度としては、例えば、tf-idf値を用いる。ここで、「tf(term frequency:単語頻度)」は、対象文書内に含まれる各用語の出現頻度を表す値である。また、「idf(inverse document frequency:逆文書頻度)」は、対象文書において、どれくらい少ない頻度で存在するかを表す値である。tf-idf値は、tf値とidf値とを乗算することにより算出される。
【0026】
極性付与部215は、抽出した専門用語に極性を付与する処理を実行する。この極性付与部215としては、上述した非特許文献1に記載された技術を用いることができる。極性付与部215は、辞書記憶部23に記録された専門用語の自然言語処理により、各専門用語のベクトルを算出する。この極性は、単語の特性を表わすものであり、例えば、ポジティブ又はネガティブを用いることができる。
【0027】
文書記憶部22には、専門用語を抽出する対象文書が記録される。この対象文書は、辞書作成前に予め記録される。この対象文書は、専門用語を含む複数の文章を含む。この文書記憶部22には、特定業務で生成される文書であって、特定業務における活動記録や、顧客からの相談の対応記録等が含まれる。
【0028】
辞書記憶部23には、文書から抽出した専門用語が記録される。この専門用語は、辞書作成処理の実行時に記録される。
公開文書サイト30は、一般に公開された文書が、カテゴリ毎に蓄積されている。カテゴリとしては、社会カテゴリ、金融カテゴリ等に分類されて、大量の文書が蓄積されている。
【0029】
(辞書作成の概略)
次に、
図3を用いて、辞書作成の概略を説明する。
まず、支援サーバ20の制御部21は、連接ルールによる用語抽出処理(連接ルール適用処理)を実行する(ステップS11)。具体的には、制御部21の管理部211が、形態素分析部212により、文書記憶部22に記録された対象文書から生成された形態素を用いて、連接ルールによって専門用語を抽出する。そして、管理部211は、抽出した専門用語を辞書記憶部23に記録する。詳細は後述する。
【0030】
次に、支援サーバ20の制御部21は、分かち書きツールによる用語抽出処理(分かち書き抽出処理)を実行する(ステップS12)。具体的には、制御部21の管理部211が、分割処理部213、重要度評価部214を用いて、文書記憶部22に記録された対象文書から分かち書きによって専門用語を抽出する。そして、管理部211は、抽出した専門用語を辞書記憶部23に記録する。ここでは、分かち書きツールによる用語の第1抽出処理及び分かち書きツールによる用語の第2抽出処理を実行する。詳細は後述する。
【0031】
次に、支援サーバ20の制御部21は、極性付与処理を実行する(ステップS13)。具体的には、制御部21の管理部211が、極性付与部215を用いて、辞書記憶部23に記録された専門用語に対して、極性を付与する。
【0032】
(連接ルールによる用語抽出処理)
次に、
図4を用いて、連接ルールによる用語抽出処理を説明する。
ここでは、支援サーバ20の制御部21は、文章入力処理を実行する(ステップS21)。具体的には、制御部21の管理部211は、文書記憶部22から、辞書を作成するための文書に含まれる文章を取得する。
【0033】
次に、支援サーバ20の制御部21は、形態素解析処理を実行する(ステップS22)。具体的には、制御部21の管理部211は、形態素分析部212を用いて、文章に含まれる単語を品詞に分解する。この品詞には、名詞(一般、サ変接続等)、助詞(連体化、格助詞、並立助詞等)、動詞(自立、非自立等)等がある。
【0034】
例えば、文章例として「金利GLの充足や総合採算メルクマールを充足する計画を策定して下さい」を想定した場合、以下のように分けられる。
【0035】
【0036】
次に、支援サーバ20の制御部21は、ルールにより、専門用語候補の抽出処理を実行する(ステップS23)。具体的には、制御部21の管理部211は、形態素分析結果に対して、連接ルールにより専門用語候補を抽出する。例えば、専門用語となりうる品詞の組み合わせパターンとして、名詞(一般、サ変接続等)が連続する場合には専門用語として抽出する。また、連接方法としては、無条件連接、前後条件付連接、後方条件付連接等を用いる。
【0037】
無条件連接では、ある単語が無条件連接の品詞種類に該当した際、右記の品詞種類のいずれかの品詞が連続した場合、連接する。例えば、以下を用いる。なお、「*」は分類を特定しない名詞を意味する。
[‘名詞’,‘一般’,‘*’]、[‘名詞’,‘接尾’,‘一般’]、[‘名詞’,‘接尾,‘サ変接続’]、[‘名詞’,‘サ変接続’,‘*’]、[‘接頭詞’,‘名詞接続’,‘*’]、[‘接頭詞’,‘数接続’,‘*’]、[‘動詞’,‘自立’,‘*’]、[‘形容詞’,‘自立’,‘*’]
【0038】
前後条件付連接では、ある単語が前後条件付連接の品詞種類に該当した際、無条件連接の品詞種類のいずれかの品詞が前後に連続した場合、連接する。例えば、[‘名詞’,‘接尾’,‘形容動詞語幹’]の他に、[‘記号’,‘一般’,‘*’]等を用いる。
【0039】
後方条件付連接では、ある単語が後方条件付連接の品詞種類に該当した際、無条件連接の品詞種類のいずれかの品詞が連続した場合、連接する。例えば、[‘名詞’,‘形容動詞語幹’,‘*’]、[‘名詞’,‘ナイ形容詞語幹’,‘*’]等を用いる。
前述の文章例からは、専門用語候補として、「金利GL」、「総合採算メルクマール」が抽出される。
【0040】
次に、支援サーバ20の制御部21は、専門用語候補のフィルタリング処理を実行する(ステップS24)。具体的には、制御部21の管理部211は、例えば、不要語削除処理、過剰連接用語の対応処理、他カテゴリの用語の除外処理を行なう。
【0041】
不要語削除処理では、管理部211は、専門用語候補から、不要語リストに含まれる不要語を削除する。
過剰連接用語の対応処理では、管理部211は、専門用語候補から、「過剰に連接した用語を削除する閾値(頻度)」を用いて、過剰に連接された用語を削除する。
【0042】
他カテゴリの用語の除外処理では、管理部211は、公開文書サイト30から、特定業務のカテゴリ以外の他カテゴリの文書を取得する。特定業務を金融カテゴリとした場合、他カテゴリとして、例えば、製造業カテゴリを用いる。管理部211は、他カテゴリの文書に含まれる文章において、出現頻度が高い用語(他カテゴリ用語)を取得する。そして、管理部211は、専門用語候補から、他カテゴリ用語を除く。
そして、管理部211は、残った専門用語候補を、辞書記憶部23に専門用語として記録する。
【0043】
(分かち書きツールによる用語の第1抽出処理)
次に、
図5を用いて、分かち書きツールによる用語の第1抽出処理を説明する。この第1抽出処理では、対象文書と一般文書とを混ぜて、分かち書きツールを適用する。
【0044】
ここでは、支援サーバ20の制御部21は、文章の取得処理を実行する(ステップS31)。具体的には、制御部21の管理部211は、文書記憶部22に記録された対象文書の文章と、インターネットを介して取得した一般文書の文章を取得する。ここでは、公開文書サイト30から、一般文書として社会カテゴリの文章を取得する。
【0045】
次に、支援サーバ20の制御部21は、分かち書き処理を実行する(ステップS32)。具体的には、制御部21の管理部211は、対象文書と一般文書とを混ぜた文書に対して、分かち書きツールを用いることにより、第1言語モデル(SentencePieceモデル)と第1語彙ファイル(Vocabファイル)を生成する。
【0046】
次に、支援サーバ20の制御部21は、対象文書に含まれる各単語の重要度の算出処理を実行する(ステップS33)。具体的には、制御部21の管理部211は、対象文書の文章に含まれる各用語の重要としてtf-idf値(第1重要度)を算出する。
【0047】
次に、支援サーバ20の制御部21は、一般文書に含まれる各単語の重要度の算出処理を実行する(ステップS34)。具体的には、制御部21の管理部211は、一般文書の文章に含まれる各用語のtf-idf値(第2重要度)を算出する。
【0048】
次に、支援サーバ20の制御部21は、用語マッチング処理を実行する(ステップS35)。具体的には、制御部21の管理部211は、対象文書、一般文書に共通して含まれる各用語について、第1重要度と第2重要度とを比較する。
【0049】
次に、支援サーバ20の制御部21は、専門用語の抽出処理を実行する(ステップS36)。具体的には、制御部21の管理部211は、対象文書の文章から算出された重要度が、一般文書の文章から算出された重要度よりも基準値以上で大きい専門用語候補を、専門用語(第1用語群)として抽出し、辞書記憶部23に記録する。なお、対象文書のみに含まれる用語は、そのまま、専門用語として辞書記憶部23に記録する。
【0050】
(分かち書きツールによる用語の第2抽出処理)
次に、
図6を用いて、分かち書きツールによる用語の第2抽出処理を説明する。この第2抽出処理では、対象文書と一般文書とを、それぞれ個別に分かち書きツールを適用する。
【0051】
ここでは、支援サーバ20の制御部21は、文章の取得処理を実行する(ステップS41)。具体的には、制御部21の管理部211は、文書記憶部22に記録された対象文書と、インターネットを介して取得した一般文書を取得する。ここでは、公開文書サイト30から、一般文書として全カテゴリの文書を取得する。
【0052】
次に、支援サーバ20の制御部21は、対象文書の分かち書き処理を実行する(ステップS42)。具体的には、制御部21の管理部211は、文書記憶部22から取得した対象文書の文章に対して、分かち書きツールを用いることにより、第2言語モデル(SentencePieceモデル)と第2語彙ファイル(Vocabファイル)とを生成する。
【0053】
次に、支援サーバ20の制御部21は、一般文書の分かち書き処理を実行する(ステップS43)。具体的には、制御部21の管理部211は、公開文書サイト30から取得した一般文書の文章に対して、分かち書きツールを用いることにより、第3言語モデル(SentencePieceモデル)と第3語彙ファイル(Vocabファイル)とを生成する。
【0054】
次に、支援サーバ20の制御部21は、用語マッチング処理を実行する(ステップS44)。具体的には、制御部21の管理部211は、第2語彙ファイルに含まれる用語と、第3語彙ファイルに含まれる用語とを比較する。
【0055】
次に、支援サーバ20の制御部21は、専門用語の抽出処理を実行する(ステップS45)。具体的には、制御部21の管理部211は、第2語彙ファイルに含まれる用語であって、第3語彙ファイルに含まれない用語を専門用語(第2用語群としての第4語彙ファイル)として特定し、辞書記憶部23に記録する。
【0056】
本実施形態によれば、以下のような効果を得ることができる。
(1)本実施形態においては、支援サーバ20の制御部21は、連接ルールによる用語抽出処理を実行する(ステップS11)。専門用語は、「債務償還年数」や「根抵当権」のように、単語と単語を組み合わせた複合語で構成されることが多い。このため、連接ルールにより、複数の単語が結合した複合語で構成された専門用語を抽出することができる。
【0057】
(2)本実施形態においては、支援サーバ20の制御部21は、専門用語候補のフィルタリング処理を実行する(ステップS24)。ここでは、不要語削除処理、過剰連接用語の対応処理、他カテゴリの用語の除外処理を行なう。不要語削除処理により、予め設定された用語を削除することができる。また、過剰連接用語の対応処理により、連接ルールにより過剰に連接された用語が抽出されることがあるが、これらを削除することができる。また、他カテゴリの用語の除外処理により、特定の分野に特化した専門用語を抽出することができる。
【0058】
(3)本実施形態においては、支援サーバ20の制御部21は、分かち書きツールによる用語抽出処理を実行する(ステップS12)。「SentencePiece」等の分かち書きツールでは、意味がある単語にとらわれずに、連続して出現する頻度が高い文字の集まりを抽出する。これにより、「シンジケート団」を「シ団」のように省略する場合にも、単独の意味を持たない文字列を専門用語として抽出することができる。
【0059】
(4)本実施形態においては、支援サーバ20の制御部21は、分かち書きツールによる用語の第1抽出処理を実行する。専門用語は、文書において重要度が高いと推定される。これにより、単語の重要度に応じて専門用語を抽出することができる。
【0060】
(5)本実施形態においては、支援サーバ20の制御部21は、分かち書きツールによる用語の第2抽出処理を実行する。一般的な文書において頻出する単語は専門用語ではないと推定される。これにより、対象文書のみに含まれる単語を専門用語として抽出することができる。
【0061】
本実施形態は、以下のように変更して実施することができる。本実施形態、以下の実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
【0062】
・上記実施形態では、支援サーバ20の制御部21は、分かち書きツールによる用語抽出処理を実行する(ステップS12)。ここでは、分かち書きツールによる用語の第1抽出処理及び分かち書きツールによる用語の第2抽出処理を実行する。この分かち書きツールによる用語抽出処理は、2種類に限定されず、一方の抽出処理のみや他の抽出処理を用いてもよい。
・上記実施形態では、支援サーバ20の制御部21は、分かち書きツールによる用語抽出処理を実行する(ステップS12)。ここで、辞書に含まれる単語の抽出状況に応じて、分かち書きツールのパラメータを調整するようにしてもよい。この場合には、分かち書きツールによって抽出された専門用語の再現率を用いて、分かち書きパラメータを調整する。ここで、再現率としては、予め定められた参考辞書に記録された抽出すべき専門用語に対して、抽出できた専門用語数の割合を用いる。
【0063】
(パラメータの調整処理)
次に.
図7を用いて、パラメータの調整処理について説明する。
ここでは、支援サーバ20の制御部21は、再現率の算出処理を実行する(ステップS51)。具体的には、制御部21の管理部211は、人によって作成された参考辞書に含まれる用語と、対象文書を用いて生成した辞書に含まれる用語とを比較することにより、再現率を算出する。
【0064】
次に、支援サーバ20の制御部21は、再現率の評価処理を実行する(ステップS52)。具体的には、制御部21の管理部211は、再現率と基準値とを比較する。
再現率が基準値よりも低い場合には、支援サーバ20の制御部21は、パラメータの調整処理を実行する(ステップS53)。具体的には、制御部21の管理部211は、分かち書きツール、連接ルールのパラメータの少なくとも一つを調整する。分かち書きツールのパラメータとしては、語彙ファイルの語彙数(サイズ)がある。また、連接ルールのパラメータとしては、不要語を削除する場合の閾値(頻度)、過剰に連接した用語を削除する閾値(頻度)における閾値がある。
【0065】
・上記実施形態では、分かち書きツールによる用語抽出処理(分かち書き抽出処理)を実行する(ステップS12)。ここでは、第1抽出処理及び第2抽出処理を実行する。そして、第1抽出処理及び第2抽出処理で、それぞれで不要語削除処理を行なう。これに代えて、第1抽出処理及び第2抽出処理でまとめて不要語削除処理を行なうようにしてもよい。この場合の分かち書きツールによる用語の第3抽出処理を説明する。
【0066】
(分かち書きツールによる用語の第3抽出処理)
図8を用いて、分かち書きツールによる用語の第3抽出処理を説明する。
ここでは、支援サーバ20の制御部21は、第1抽出処理における第1語彙ファイルの生成処理(ステップS61)、第2抽出処理における第4語彙ファイルの生成処理(ステップS62)を実行する。第1抽出処理では、対象文書と一般文書とを混ぜて、分かち書きツールを適用する。また、第2抽出処理では、対象文書と一般文書とに対して、それぞれ個別に分かち書きツールを適用する。
【0067】
次に、支援サーバ20の制御部21は、結合処理を実行する(ステップS63)。具体的には、制御部21の管理部211は、第1語彙ファイルに含まれる用語と、第4語彙ファイルに含まれる用語とを合わせて第5語彙ファイルを生成する。
【0068】
次に、支援サーバ20の制御部21は、重要度に応じた専門用語候補の抽出処理を実行する(ステップS64)。具体的には、制御部21の管理部211は、第5語彙ファイルに含まれる各用語の重要としてtf-idf値を算出する。また、管理部211は、社会カテゴリの一般文書に含まれる単語の重要度を算出する。そして、管理部211は、各用語について、対象文書から算出された重要度と、一般文書から算出された重要度とを比較する。次に、管理部211は、対象文書から算出された重要度が、一般文書から算出された重要度よりも基準値以上で大きい専門用語候補を抽出する。この処理においても、対象文書のみに含まれる用語は、そのまま、専門用語として辞書記憶部23に記録する。
【0069】
次に、支援サーバ20の制御部21は、分かち書きツールを用いた不要語削除処理を実行する(ステップS65)。具体的には、制御部21の管理部211は、公開文書サイト30から取得した一般文書に対して、分かち書きツールを用いることにより、第6言語モデル(SentencePieceモデル)と第6語彙ファイル(Vocabファイル)を生成する。次に、管理部211は、第5語彙ファイルに含まれる用語と、第6語彙ファイルに含まれる用語とを比較する。そして、管理部211は、ステップS64で抽出した専門用語候補であって、第6語彙ファイルに含まれない用語を専門用語として特定する。
これにより、分かち書きツールによる第1抽出処理、第2抽出処理で個別に抽出していた用語において、それぞれに含まれる不要語を削除して、専門用語を絞り込むことができる。
【0070】
・上記実施形態では、連接ルールによる用語抽出処理(ステップS11)、分かち書きツールによる用語抽出処理(ステップS12)を実行する。これに加えて深層学習を用いてもよい。この場合には、例えば、管理部211が、BERT(Bidirectional Encoder Representations from Transformers)を用いる。このBERTは、トランスフォーマーと呼ばれるニューラルネットワークを使用する。トランスフォーマーは、入力と出力の両方に関して、その周辺の文脈を考慮して単語を解釈する。これにより、BERTは双方向性を持ち、前の単語と後の単語の両方を考慮しながら、文章を理解する。このBERTでは、教師文章において、専門用語をマスキングすることにより、機械学習を行なう。そして、管理部211は、このBERTにより、抽出した専門用語を辞書記憶部23に追加する。
【0071】
・上記実施形態では、連接ルールによる用語抽出処理(ステップS11)、分かち書きツールによる用語抽出処理(ステップS12)を用いて用語辞書を作成する。これに加えて、各処理によって抽出した専門用語を用いて、同義語辞書(シソーラス)を生成するようにしてもよい。
【0072】
(シソーラス生成処理)
次に、
図9を用いて、シソーラス生成処理を説明する。
まず、支援サーバ20の制御部21は、ベクトル化処理を実行する(ステップS71)。具体的には、制御部21の管理部211は、抽出した各専門用語の分散表現を算出することにより、各用語のベクトル化を行なう。
【0073】
次に、支援サーバ20の制御部21は、専門用語のグルーピング処理を実行する(ステップS72)。具体的には、制御部21の管理部211は、専門用語のベクトルを用いて、ベクトルが所定の範囲内に含まれる専門用語を用いてグループを形成し、同義語を抽出する。
【0074】
次に、支援サーバ20の制御部21は、上位概念・下位概念の設定処理を実行する(ステップS73)。具体的には、制御部21の管理部211は、グループ化された専門用語の各ベクトルの重心ベクトルを算出する。そして、管理部211は、重心に近いベクトルを有する専門用語を上位概念、重心ベクトルから遠いベクトルを有する専門用語を下位概念として、階層化を行なう。
【0075】
図10を用いて、他のシソーラス生成処理を説明する。
ここでは、支援サーバ20の制御部21は、グラフニューラルネットワークの生成処理を実行する(ステップS81)。具体的には、制御部21の管理部211は、グループ化した専門用語において、グラフニューラルネットワーク(GNN)を生成する。このGNNにより、グループに含まれる専門用語について、それぞれリンクさせたネットワークが生成される。
【0076】
次に、支援サーバ20の制御部21は、上位概念・下位概念の設定処理を実行する(ステップS82)。具体的には、制御部21の管理部211は、リンク数が多く、中心のノードにある用語は上位概念の専門用語として特定し、リンク数が少ない専門用語は下位概念として特定することにより、階層化を行なう。
【0077】
・上記実施形態では、支援サーバ20の制御部21は、極性付与処理を実行する(ステップS13)。この極性付与時に得られた専門用語のベクトルを用いて、不要語を削除する不要語削除処理を実行するようにしてもよい。
【0078】
(不要語削除処理)
次に、
図11を用いて、不要語削除処理を説明する。
ここでは、支援サーバ20の制御部21は、クラスタリング処理を実行する(ステップS91)。具体的には、制御部21の管理部211は、極性付与時に用いた専門用語のベクトルを取得する。そして、管理部211は、このベクトルを用いて、クラスタリングを行なう。
【0079】
次に、支援サーバ20の制御部21は、クラスタリングによる不要語群の削除処理を実行する(ステップS92)。具体的には、制御部21の管理部211は、ベクトル空間において、専門用語からなるクラスタと、不要語を含むクラスタとを識別する。この不要語を含むクラスタは、表示装置H13に各クラスタに含まれる用語を出力することにより、人手により特定してもよい。また、クラスタに含まれる用語数が基準値よりも少ないクラスタを不要語のクラスタとして特定してもよい。
【0080】
この場合には、
図12に示すように、ベクトル空間において、専門用語クラスタC1に対して不要語クラスタC2を削除する。
また、予め準備された参考辞書に含まれる用語が含まれないクラスタに含まれる用語を不要語として特定してもよい。
また、支援サーバ20の制御部21は、異常検知手法による不要語群の削除処理を実行する(ステップS93)。具体的には、制御部21の管理部211は、専門用語群のクラスタから、所定距離以上で離れた用語を特定して、不要語として削除する。
この場合には、
図12に示すように、ベクトル空間において、専門用語クラスタC1から遠い不要語W1を削除する。
【0081】
・上記実施形態では、支援サーバ20の制御部21は、専門用語候補のフィルタリング処理を実行する(ステップS24)。他カテゴリの用語の除外処理では、特定業務を金融カテゴリとした場合、他カテゴリとして、例えば、製造業カテゴリを用いる。また、支援サーバ20の制御部21は、文章の取得処理を実行する(ステップS31)。ここでは、公開文書サイト30から、一般文書として社会カテゴリの文章を取得する。特定業務に対する他のカテゴリは、これらに限定されるものではない。例えば、公開文書サイト30の各カテゴリにおける用語(不要語)群の中心と、参考辞書の専門用語群の中心との距離を計算することにより、適切な距離を実現するカテゴリを選択するようにしてもよい。
【0082】
・上記実施形態では、支援サーバ20の制御部21は、連接ルールによる用語抽出処理を実行する(ステップS11)。ここで、支援サーバ20が、連接ルールを作成するようにしてもよい。この場合には、抽出すべき必須用語を予め設定しておく。この場合、支援サーバ20の制御部21は、必須用語の形態素解析を行なうことにより、必須用語を品詞種類に分解する。そして、制御部21は、分解された品詞種類を並べて、専門用語候補の抽出処理(ステップS23)で用いる連接ルールを生成する。
【符号の説明】
【0083】
10…ユーザ端末、20…支援サーバ、21…制御部、211…管理部、212…形態素分析部、213…分割処理部、214…重要度評価部、215…極性付与部、22…文書記憶部、23…辞書記憶部、30…公開文書サーバ。
【手続補正書】
【提出日】2024-08-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備えた辞書作成システムであって、
前記制御部が、
前記対象文書の形態素分析結果に連接ルールを適用して第1用語群を抽出する連接ルール適用処理と、
前記対象文書から、連続して出現する文字の集まりであるサブワードを生成し、出現頻度が高いサブワードを単語として特定する分かち書き処理によって第2用語群を抽出する分かち書き抽出処理と、
前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行することを特徴とする辞書作成システム。
【請求項2】
前記制御部が、前記連接ルール適用処理において、専門用語となりうる品詞の組み合わせパターンによって前記第1用語群を抽出することを特徴とする請求項1に記載の辞書作成システム。
【請求項3】
前記制御部が、前記連接ルール適用処理において、所定の用語を連接した場合の出現頻度の減少に応じて専門用語候補を削除することを特徴とする請求項1又は2に記載の辞書作成システム。
【請求項4】
前記制御部が、前記連接ルール適用処理において、前記対象文書と異なるカテゴリの文書に含まれる用語を除外することを特徴とする請求項1又は2に記載の辞書作成システム。
【請求項5】
前記分かち書き抽出処理において、
前記対象文書と一般文書とを合わせて、前記分かち書き処理を行なうことによって第1言語モデルを生成し、
前記第1言語モデルを用いて、前記対象文書において特定した各単語の出現頻度に応じて第1重要度を算出し、
前記第1言語モデルを用いて、前記一般文書において特定した各単語の出現頻度に応じて第2重要度を算出し、
前記対象文書のみから抽出された単語と、前記対象文書と一般文書とで共通する単語であって、前記第1重要度が前記第2重要度よりも高い単語と、を用いて、前記用語辞書を作成することを特徴とする請求項1に記載の辞書作成システム。
【請求項6】
前記分かち書き抽出処理において、
前記対象文書を用いた前記分かち書き処理により、前記対象文書に含まれる各単語の出現頻度に応じて、前記対象文書から抽出した単語からなる第2語彙ファイルを生成し、
一般文書を用いた前記分かち書き処理により、前記一般文書に含まれる各単語の出現頻度に応じて、前記一般文書から抽出した単語からなる第3語彙ファイルを生成し、
前記第2語彙ファイルと前記第3語彙ファイルとを比較して、前記第2語彙ファイルに含まれる単語であって、前記第3語彙ファイルに含まれない単語を用いて、前記用語辞書を作成することを特徴とする請求項1に記載の辞書作成システム。
【請求項7】
対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備えた辞書作成システムを用いて、用語辞書を作成する方法であって、
前記制御部が、
前記対象文書の形態素分析結果に連接ルールを適用して第1用語群を抽出する連接ルール適用処理と、
前記対象文書から、連続して出現する文字の集まりであるサブワードを生成し、出現頻度が高いサブワードを単語として特定する分かち書き処理によって第2用語群を抽出する分かち書き抽出処理と、
前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行することを特徴とする辞書作成方法。
【請求項8】
対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備えた辞書作成システムを用いて、用語辞書を作成するためのプログラムであって、
前記制御部を、
前記対象文書の形態素分析結果に連接ルールを適用して第1用語群を抽出する連接ルール適用処理と、
前記対象文書から、連続して出現する文字の集まりであるサブワードを生成し、出現頻度が高いサブワードを単語として特定する分かち書き処理によって第2用語群を抽出する分かち書き抽出処理と、
前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行する手段として機能させるための辞書作成プログラム。