2024-151487 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2024-151487辞書作成システム、辞書作成方法及び辞書作成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024151487

(43)【公開日】2024-10-25

(54)【発明の名称】辞書作成システム、辞書作成方法及び辞書作成プログラム

(51)【国際特許分類】

G06F 40/242 20200101AFI20241018BHJP

【ＦＩ】

G06F40/242

【審査請求】有

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023064858

(22)【出願日】2023-04-12

(71)【出願人】

【識別番号】592131906

【氏名又は名称】みずほリサーチ＆テクノロジーズ株式会社

(74)【代理人】

【識別番号】100105957

【弁理士】

【氏名又は名称】恩田誠

(74)【代理人】

【識別番号】100068755

【弁理士】

【氏名又は名称】恩田博宣

(72)【発明者】

【氏名】太田英寿

(72)【発明者】

【氏名】吉永和史

(72)【発明者】

【氏名】江上和明

(72)【発明者】

【氏名】木村淳

(57)【要約】

【課題】特定分野において用いられる専門用語を集めた辞書を効率的に作成するための辞書作成システム、辞書作成方法及び辞書作成プログラムを提供する。
【解決手段】支援サーバ２０は、対象文書を記録した文書記憶部２２と、対象文書から専門用語を抽出する制御部２１と、を備える。制御部２１が、対象文書の形態素分析結果に連接ルールを適用して第１用語群を抽出する連接ルール適用処理と、対象文書から、分かち書き処理によって第２用語群を抽出する分かち書き抽出処理とを実行する。更に、制御部２１は、連接ルール適用処理及び分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理を実行する。
【選択図】図１

【特許請求の範囲】

【請求項1】

対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備えた辞書作成システムであって、
前記制御部が、
前記対象文書の形態素分析結果に連接ルールを適用して第１用語群を抽出する連接ルール適用処理と、
前記対象文書から、分かち書き処理によって第２用語群を抽出する分かち書き抽出処理と、
前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行することを特徴とする辞書作成システム。

【請求項2】

前記制御部が、前記連接ルール適用処理において、専門用語となりうる品詞の組み合わせパターンによって前記第１用語群を抽出することを特徴とする請求項１に記載の辞書作成システム。

【請求項3】

前記制御部が、前記連接ルール適用処理において、所定の用語を連接した場合の出現頻度の減少に応じて専門用語候補を削除することを特徴とする請求項１又は２に記載の辞書作成システム。

【請求項4】

前記制御部が、前記連接ルール適用処理において、前記対象文書と異なるカテゴリの文書に含まれる用語を除外することを特徴とする請求項１又は２に記載の辞書作成システム。

【請求項5】

前記分かち書き抽出処理において、
前記対象文書と一般文書とを合わせて、単語の重要度を算出する第１言語モデルを生成し、
前記第１言語モデルを用いて、前記対象文書において各単語の第１重要度を算出し、
前記第１言語モデルを用いて、前記一般文書において各単語の第２重要度を算出し、
前記対象文書のみから抽出された単語と、前記対象文書と一般文書とで共通する単語であって、前記第１重要度が前記第２重要度よりも高い単語と、を用いて、前記用語辞書を作成することを特徴とする請求項１に記載の辞書作成システム。

【請求項6】

前記分かち書き抽出処理において、
前記対象文書を用いて、単語の重要度を算出する第２言語モデルを生成し、
一般文書を用いて、単語の重要度を算出する第３言語モデルを生成し、
前記第２言語モデルを用いて前記対象文書から抽出した単語と、前記第３言語モデルを用いて前記一般文書から抽出した単語と、を比較して、前記用語辞書を作成することを特徴とする請求項１に記載の辞書作成システム。

【請求項7】

対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備えた辞書作成システムを用いて、用語辞書を作成する方法であって、
前記制御部が、
前記対象文書の形態素分析結果に連接ルールを適用して第１用語群を抽出する連接ルール適用処理と、
前記対象文書から、分かち書き処理によって第２用語群を抽出する分かち書き抽出処理と、
前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行することを特徴とする辞書作成方法。

【請求項8】

対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備えた辞書作成システムを用いて、用語辞書を作成するためのプログラムであって、
前記制御部を、
前記対象文書の形態素分析結果に連接ルールを適用して第１用語群を抽出する連接ルール適用処理と、
前記対象文書から、分かち書き処理によって第２用語群を抽出する分かち書き抽出処理と、
前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行する手段として機能させるための辞書作成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、特定の分野において用いられる専門用語を集めた辞書を作成するための辞書作成システム、辞書作成方法及び辞書作成プログラムに関する。

【背景技術】

【0002】

特定の分野において、専門用語を用いることがある。このような専門用語を集めて用語集（辞書）を作成する技術が検討されている（例えば、特許文献１を参照。）。この特許文献に記載された用語辞書作成装置は、文書に対し、形態素解析を実行する。次に、文書から抽出された形態素に基づいて、文書の中で名詞が連続する部分を用語候補として取得する。次に、用語候補の出現頻度を計算する。用語候補の出現頻度に基づいて、用語辞書を作成する。

【0003】

また、各単語における感情的な価値は、分野や文脈によって異なる。このような価値を導出する技術も検討されている（例えば、非特許文献１を参照。）。また、金融市場について書かれた文章を語彙ベースによるセンチメント分析によって評価をする技術も検討されている（例えば、非特許文献２を参照。）。この文献に記載された技術では、単語の係り受けネットワークの表現学習を用いて単語の分散表現を獲得するとともに、得られた分散表現を用いた金融専門の極性辞書を構築する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２１－２６５８６号公報

【非特許文献】

【0005】

【非特許文献1】William L Hamilton、“Inducing Domain-Specific Sentiment Lexicons from Unlabeled Corpora”、［online］，２０１６年、Cornell University、［令和５年３月２２日検索］，インターネット＜URL：https://arxiv.org/pdf/1606.02820.pdf＞

【非特許文献2】伊藤諒他、“ネットワークの表現学習による金融専門極性辞書の構築”，［online］，２０１７年，一般社団法人人工知能学会，２０１７年度人工知能学会全国大会（第３１回），ｐ．１－３［令和５年２月２３日検索］，インターネット＜URL：https://www.jstage.jst.go.jp/article/pjsai/JSAI2017/0/JSAI2017_2D3OS19a4/_pdf/-char/ja＞

【発明の概要】

【発明が解決しようとする課題】

【0006】

文書から、出現頻度を用いて専門用語候補を抽出する場合、専門用語だけではなく、出現頻度が高い一般用語も混在することになる。この場合、専門用語に絞り込んだ辞書を作成することができない。

【課題を解決するための手段】

【0007】

上記課題を解決する辞書作成システムは、対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備える。そして、前記制御部が、前記対象文書の形態素分析結果に連接ルールを適用して第１用語群を抽出する連接ルール適用処理と、前記対象文書から、分かち書き処理によって第２用語群を抽出する分かち書き抽出処理と、前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行する。

【発明の効果】

【0008】

本開示によれば、特定分野において用いられる専門用語を集めた辞書を効率的に作成することができる。

【図面の簡単な説明】

【0009】

【図1】実施形態の辞書作成システムの説明図である。

【図2】実施形態のハードウェア構成の説明図である。

【図3】実施形態の処理手順の説明図である。

【図4】実施形態の処理手順の説明図である。

【図5】実施形態の処理手順の説明図である。

【図6】実施形態の処理手順の説明図である。

【図7】別例の処理手順の説明図である。

【図8】別例の処理手順の説明図である。

【図9】別例の処理手順の説明図である。

【図10】別例の処理手順の説明図である。

【図11】別例の処理手順の説明図である。

【図12】別例の処理手順の説明図である。

【発明を実施するための形態】

【0010】

図１～図６に従って、辞書作成システム、辞書作成方法及び辞書作成プログラムを具体化した一実施形態を説明する。本実施形態では、特定の業務（例えば銀行業務）で用いる用語を蓄積した辞書を作成する場合を想定する。

【0011】

図１に示すように、本実施形態の辞書作成システムは、ユーザ端末１０、支援サーバ２０、公開文書サイト３０を用いる。
（ハードウェア構成例）
図２は、ユーザ端末１０、支援サーバ２０、公開文書サイト３０等として機能する情報処理装置Ｈ１０のハードウェア構成例である。

【0012】

情報処理装置Ｈ１０は、通信装置Ｈ１１、入力装置Ｈ１２、表示装置Ｈ１３、記憶装置Ｈ１４、プロセッサＨ１５を有する。なお、このハードウェア構成は一例であり、他のハードウェアを有していてもよい。

【0013】

通信装置Ｈ１１は、他の装置との間で通信経路を確立して、データの送受信を実行するインタフェースであり、例えばネットワークインタフェースや無線インタフェース等である。

【0014】

入力装置Ｈ１２は、利用者等からの入力を受け付ける装置であり、例えばマウスやキーボード等である。表示装置Ｈ１３は、各種情報を表示するディスプレイやタッチパネル等である。

【0015】

記憶装置Ｈ１４は、ユーザ端末１０、支援サーバ２０、公開文書サイト３０の各種機能を実行するためのデータや各種プログラムを格納する記憶装置である。記憶装置Ｈ１４の一例としては、ＲＯＭ、ＲＡＭ、ハードディスク等がある。

【0016】

プロセッサＨ１５は、記憶装置Ｈ１４に記憶されるプログラムやデータを用いて、ユーザ端末１０、支援サーバ２０、公開文書サイト３０における各処理を制御する。プロセッサＨ１５の一例としては、例えばＣＰＵやＭＰＵ等がある。このプロセッサＨ１５は、ＲＯＭ等に記憶されるプログラムをＲＡＭに展開して、各種処理に対応する各種プロセスを実行する。例えば、プロセッサＨ１５は、ユーザ端末１０、支援サーバ２０のアプリケーションプログラムが起動された場合、後述する各処理を実行するプロセスを動作させる。

【0017】

プロセッサＨ１５は、自身が実行するすべての処理についてソフトウェア処理を行なうものに限られない。例えば、プロセッサＨ１５は、自身が実行する処理の少なくとも一部についてハードウェア処理を行なう専用のハードウェア回路（例えば、特定用途向け集積回路：ＡＳＩＣ）を備えてもよい。すなわち、プロセッサＨ１５は、以下で構成し得る。

【0018】

（１）コンピュータプログラム（ソフトウェア）に従って動作する１つ以上のプロセッサ
（２）各種処理のうち少なくとも一部の処理を実行する１つ以上の専用のハードウェア回路、或いは
（３）それらの組み合わせ、を含む回路（circuitry）
プロセッサは、ＣＰＵ並びに、ＲＡＭ及びＲＯＭ等のメモリを含み、メモリは、処理をＣＰＵに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。

【0019】

（各情報処理装置の機能）
図１を用いて、ユーザ端末１０、支援サーバ２０、公開文書サイト３０の機能を説明する。

【0020】

ユーザ端末１０は、本システムを利用するユーザが用いるコンピュータ端末である。
支援サーバ２０は、辞書を作成するための自然言語処理を行なうコンピュータシステムである。この支援サーバ２０は、制御部２１、文書記憶部２２、辞書記憶部２３を備えている。

【0021】

制御部２１は、後述する処理（管理段階、形態素分析段階、分割処理段階、重要度評価段階、極性付与段階等を含む処理）を行なう。このための辞書作成プログラムを実行することにより、制御部２１は、管理部２１１、形態素分析部２１２、分割処理部２１３、重要度評価部２１４、極性付与部２１５等として機能する。

【0022】

管理部２１１は、形態素分析部２１２、分割処理部２１３、重要度評価部２１４、極性付与部２１５を管理する処理を実行する。管理部２１１は、専門用語となりうる品詞の組み合わせパターン、すなわち連接ルールを保持する。この連接ルールは、不要語を削除する場合の閾値（頻度）、過剰に連接した用語を削除する閾値（頻度）をパラメータとして保持している。例えば、専門用語候補としての「免責的債務引受契約」について、用語「契約」を連接する場合、「免責的債務引受」と「免責的債務引受契約」の出現頻度を調べる。「免責的債務引受」の出現頻度に対して、「免責的債務引受契約」の閾値以上で出現頻度が減少する場合には、「免責的債務引受契約」を専門用語として抽出しない。また、管理部２１１は、不要語リストを保持する。この不要語リストには、「当社、当該、本件、各行、可否」等、専門用語ではない単語が記録されている。

【0023】

形態素分析部２１２は、文章の文法や、単語の品詞等の情報に基づき、形態素（言語で意味を持つ最小単位）の列に分割し、それぞれの形態素の品詞等を判別する処理を実行する。

【0024】

分割処理部２１３は、分かち書きツールにより、文章を単語（サブワード）に分割する分かち書き処理を実行する。分割処理部２１３としては、分かち書きツールとして、例えば、「SentencePiece」を用いる。この「SentencePiece」では、意味がある単語にとらわれずに、連続して出現する頻度が高い文字の集まりを基準に、分かち書きを行なう。具体的には、まず、文章を単語に分割し（サブワード・セグメンテーション）、各単語の頻度を求める。次に、高頻度単語は１語彙として扱い、低頻度単語はより短い語彙に分割する。そして、語彙数が事前に指定した数になるまで、分割を繰り返す。この「SentencePiece」では、語彙ファイルの語彙数（サイズ）をパラメータとして保持している。

【0025】

重要度評価部２１４は、対象文書に含まれる各用語の重要度を評価する処理を実行する。重要度としては、例えば、ｔｆ－ｉｄｆ値を用いる。ここで、「ｔｆ（term frequency：単語頻度）」は、対象文書内に含まれる各用語の出現頻度を表す値である。また、「ｉｄｆ（inverse document frequency：逆文書頻度）」は、対象文書において、どれくらい少ない頻度で存在するかを表す値である。ｔｆ－ｉｄｆ値は、ｔｆ値とｉｄｆ値とを乗算することにより算出される。

【0026】

極性付与部２１５は、抽出した専門用語に極性を付与する処理を実行する。この極性付与部２１５としては、上述した非特許文献１に記載された技術を用いることができる。極性付与部２１５は、辞書記憶部２３に記録された専門用語の自然言語処理により、各専門用語のベクトルを算出する。この極性は、単語の特性を表わすものであり、例えば、ポジティブ又はネガティブを用いることができる。

【0027】

文書記憶部２２には、専門用語を抽出する対象文書が記録される。この対象文書は、辞書作成前に予め記録される。この対象文書は、専門用語を含む複数の文章を含む。この文書記憶部２２には、特定業務で生成される文書であって、特定業務における活動記録や、顧客からの相談の対応記録等が含まれる。

【0028】

辞書記憶部２３には、文書から抽出した専門用語が記録される。この専門用語は、辞書作成処理の実行時に記録される。
公開文書サイト３０は、一般に公開された文書が、カテゴリ毎に蓄積されている。カテゴリとしては、社会カテゴリ、金融カテゴリ等に分類されて、大量の文書が蓄積されている。

【0029】

（辞書作成の概略）
次に、図３を用いて、辞書作成の概略を説明する。
まず、支援サーバ２０の制御部２１は、連接ルールによる用語抽出処理（連接ルール適用処理）を実行する（ステップＳ１１）。具体的には、制御部２１の管理部２１１が、形態素分析部２１２により、文書記憶部２２に記録された対象文書から生成された形態素を用いて、連接ルールによって専門用語を抽出する。そして、管理部２１１は、抽出した専門用語を辞書記憶部２３に記録する。詳細は後述する。

【0030】

次に、支援サーバ２０の制御部２１は、分かち書きツールによる用語抽出処理（分かち書き抽出処理）を実行する（ステップＳ１２）。具体的には、制御部２１の管理部２１１が、分割処理部２１３、重要度評価部２１４を用いて、文書記憶部２２に記録された対象文書から分かち書きによって専門用語を抽出する。そして、管理部２１１は、抽出した専門用語を辞書記憶部２３に記録する。ここでは、分かち書きツールによる用語の第１抽出処理及び分かち書きツールによる用語の第２抽出処理を実行する。詳細は後述する。

【0031】

次に、支援サーバ２０の制御部２１は、極性付与処理を実行する（ステップＳ１３）。具体的には、制御部２１の管理部２１１が、極性付与部２１５を用いて、辞書記憶部２３に記録された専門用語に対して、極性を付与する。

【0032】

（連接ルールによる用語抽出処理）
次に、図４を用いて、連接ルールによる用語抽出処理を説明する。
ここでは、支援サーバ２０の制御部２１は、文章入力処理を実行する（ステップＳ２１）。具体的には、制御部２１の管理部２１１は、文書記憶部２２から、辞書を作成するための文書に含まれる文章を取得する。

【0033】

次に、支援サーバ２０の制御部２１は、形態素解析処理を実行する（ステップＳ２２）。具体的には、制御部２１の管理部２１１は、形態素分析部２１２を用いて、文章に含まれる単語を品詞に分解する。この品詞には、名詞（一般、サ変接続等）、助詞（連体化、格助詞、並立助詞等）、動詞（自立、非自立等）等がある。

【0034】

例えば、文章例として「金利ＧＬの充足や総合採算メルクマールを充足する計画を策定して下さい」を想定した場合、以下のように分けられる。

【0035】

【表1】

【0036】

次に、支援サーバ２０の制御部２１は、ルールにより、専門用語候補の抽出処理を実行する（ステップＳ２３）。具体的には、制御部２１の管理部２１１は、形態素分析結果に対して、連接ルールにより専門用語候補を抽出する。例えば、専門用語となりうる品詞の組み合わせパターンとして、名詞（一般、サ変接続等）が連続する場合には専門用語として抽出する。また、連接方法としては、無条件連接、前後条件付連接、後方条件付連接等を用いる。

【0037】

無条件連接では、ある単語が無条件連接の品詞種類に該当した際、右記の品詞種類のいずれかの品詞が連続した場合、連接する。例えば、以下を用いる。なお、「＊」は分類を特定しない名詞を意味する。
［‘名詞’，‘一般’，‘＊’］、［‘名詞’，‘接尾’，‘一般’］、［‘名詞’，‘接尾，‘サ変接続’］、［‘名詞’，‘サ変接続’，‘＊’］、［‘接頭詞’，‘名詞接続’，‘＊’］、［‘接頭詞’，‘数接続’，‘＊’］、［‘動詞’，‘自立’，‘＊’］、［‘形容詞’，‘自立’，‘＊’］

【0038】

前後条件付連接では、ある単語が前後条件付連接の品詞種類に該当した際、無条件連接の品詞種類のいずれかの品詞が前後に連続した場合、連接する。例えば、［‘名詞’，‘接尾’，‘形容動詞語幹’］の他に、［‘記号’，‘一般’，‘＊’］等を用いる。

【0039】

後方条件付連接では、ある単語が後方条件付連接の品詞種類に該当した際、無条件連接の品詞種類のいずれかの品詞が連続した場合、連接する。例えば、［‘名詞’，‘形容動詞語幹’，‘＊’］、［‘名詞’，‘ナイ形容詞語幹’，‘＊’］等を用いる。
前述の文章例からは、専門用語候補として、「金利ＧＬ」、「総合採算メルクマール」が抽出される。

【0040】

次に、支援サーバ２０の制御部２１は、専門用語候補のフィルタリング処理を実行する（ステップＳ２４）。具体的には、制御部２１の管理部２１１は、例えば、不要語削除処理、過剰連接用語の対応処理、他カテゴリの用語の除外処理を行なう。

【0041】

不要語削除処理では、管理部２１１は、専門用語候補から、不要語リストに含まれる不要語を削除する。
過剰連接用語の対応処理では、管理部２１１は、専門用語候補から、「過剰に連接した用語を削除する閾値（頻度）」を用いて、過剰に連接された用語を削除する。

【0042】

他カテゴリの用語の除外処理では、管理部２１１は、公開文書サイト３０から、特定業務のカテゴリ以外の他カテゴリの文書を取得する。特定業務を金融カテゴリとした場合、他カテゴリとして、例えば、製造業カテゴリを用いる。管理部２１１は、他カテゴリの文書に含まれる文章において、出現頻度が高い用語（他カテゴリ用語）を取得する。そして、管理部２１１は、専門用語候補から、他カテゴリ用語を除く。
そして、管理部２１１は、残った専門用語候補を、辞書記憶部２３に専門用語として記録する。

【0043】

（分かち書きツールによる用語の第１抽出処理）
次に、図５を用いて、分かち書きツールによる用語の第１抽出処理を説明する。この第１抽出処理では、対象文書と一般文書とを混ぜて、分かち書きツールを適用する。

【0044】

ここでは、支援サーバ２０の制御部２１は、文章の取得処理を実行する（ステップＳ３１）。具体的には、制御部２１の管理部２１１は、文書記憶部２２に記録された対象文書の文章と、インターネットを介して取得した一般文書の文章を取得する。ここでは、公開文書サイト３０から、一般文書として社会カテゴリの文章を取得する。

【0045】

次に、支援サーバ２０の制御部２１は、分かち書き処理を実行する（ステップＳ３２）。具体的には、制御部２１の管理部２１１は、対象文書と一般文書とを混ぜた文書に対して、分かち書きツールを用いることにより、第１言語モデル（SentencePieceモデル）と第１語彙ファイル（Vocabファイル）を生成する。

【0046】

次に、支援サーバ２０の制御部２１は、対象文書に含まれる各単語の重要度の算出処理を実行する（ステップＳ３３）。具体的には、制御部２１の管理部２１１は、対象文書の文章に含まれる各用語の重要としてｔｆ－ｉｄｆ値（第１重要度）を算出する。

【0047】

次に、支援サーバ２０の制御部２１は、一般文書に含まれる各単語の重要度の算出処理を実行する（ステップＳ３４）。具体的には、制御部２１の管理部２１１は、一般文書の文章に含まれる各用語のｔｆ－ｉｄｆ値（第２重要度）を算出する。

【0048】

次に、支援サーバ２０の制御部２１は、用語マッチング処理を実行する（ステップＳ３５）。具体的には、制御部２１の管理部２１１は、対象文書、一般文書に共通して含まれる各用語について、第１重要度と第２重要度とを比較する。

【0049】

次に、支援サーバ２０の制御部２１は、専門用語の抽出処理を実行する（ステップＳ３６）。具体的には、制御部２１の管理部２１１は、対象文書の文章から算出された重要度が、一般文書の文章から算出された重要度よりも基準値以上で大きい専門用語候補を、専門用語（第１用語群）として抽出し、辞書記憶部２３に記録する。なお、対象文書のみに含まれる用語は、そのまま、専門用語として辞書記憶部２３に記録する。

【0050】

（分かち書きツールによる用語の第２抽出処理）
次に、図６を用いて、分かち書きツールによる用語の第２抽出処理を説明する。この第２抽出処理では、対象文書と一般文書とを、それぞれ個別に分かち書きツールを適用する。

【0051】

ここでは、支援サーバ２０の制御部２１は、文章の取得処理を実行する（ステップＳ４１）。具体的には、制御部２１の管理部２１１は、文書記憶部２２に記録された対象文書と、インターネットを介して取得した一般文書を取得する。ここでは、公開文書サイト３０から、一般文書として全カテゴリの文書を取得する。

【0052】

次に、支援サーバ２０の制御部２１は、対象文書の分かち書き処理を実行する（ステップＳ４２）。具体的には、制御部２１の管理部２１１は、文書記憶部２２から取得した対象文書の文章に対して、分かち書きツールを用いることにより、第２言語モデル（SentencePieceモデル）と第２語彙ファイル（Vocabファイル）とを生成する。

【0053】

次に、支援サーバ２０の制御部２１は、一般文書の分かち書き処理を実行する（ステップＳ４３）。具体的には、制御部２１の管理部２１１は、公開文書サイト３０から取得した一般文書の文章に対して、分かち書きツールを用いることにより、第３言語モデル（SentencePieceモデル）と第３語彙ファイル（Vocabファイル）とを生成する。

【0054】

次に、支援サーバ２０の制御部２１は、用語マッチング処理を実行する（ステップＳ４４）。具体的には、制御部２１の管理部２１１は、第２語彙ファイルに含まれる用語と、第３語彙ファイルに含まれる用語とを比較する。

【0055】

次に、支援サーバ２０の制御部２１は、専門用語の抽出処理を実行する（ステップＳ４５）。具体的には、制御部２１の管理部２１１は、第２語彙ファイルに含まれる用語であって、第３語彙ファイルに含まれない用語を専門用語（第２用語群としての第４語彙ファイル）として特定し、辞書記憶部２３に記録する。

【0056】

本実施形態によれば、以下のような効果を得ることができる。
（１）本実施形態においては、支援サーバ２０の制御部２１は、連接ルールによる用語抽出処理を実行する（ステップＳ１１）。専門用語は、「債務償還年数」や「根抵当権」のように、単語と単語を組み合わせた複合語で構成されることが多い。このため、連接ルールにより、複数の単語が結合した複合語で構成された専門用語を抽出することができる。

【0057】

（２）本実施形態においては、支援サーバ２０の制御部２１は、専門用語候補のフィルタリング処理を実行する（ステップＳ２４）。ここでは、不要語削除処理、過剰連接用語の対応処理、他カテゴリの用語の除外処理を行なう。不要語削除処理により、予め設定された用語を削除することができる。また、過剰連接用語の対応処理により、連接ルールにより過剰に連接された用語が抽出されることがあるが、これらを削除することができる。また、他カテゴリの用語の除外処理により、特定の分野に特化した専門用語を抽出することができる。

【0058】

（３）本実施形態においては、支援サーバ２０の制御部２１は、分かち書きツールによる用語抽出処理を実行する（ステップＳ１２）。「SentencePiece」等の分かち書きツールでは、意味がある単語にとらわれずに、連続して出現する頻度が高い文字の集まりを抽出する。これにより、「シンジケート団」を「シ団」のように省略する場合にも、単独の意味を持たない文字列を専門用語として抽出することができる。

【0059】

（４）本実施形態においては、支援サーバ２０の制御部２１は、分かち書きツールによる用語の第１抽出処理を実行する。専門用語は、文書において重要度が高いと推定される。これにより、単語の重要度に応じて専門用語を抽出することができる。

【0060】

（５）本実施形態においては、支援サーバ２０の制御部２１は、分かち書きツールによる用語の第２抽出処理を実行する。一般的な文書において頻出する単語は専門用語ではないと推定される。これにより、対象文書のみに含まれる単語を専門用語として抽出することができる。

【0061】

本実施形態は、以下のように変更して実施することができる。本実施形態、以下の実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。

【0062】

・上記実施形態では、支援サーバ２０の制御部２１は、分かち書きツールによる用語抽出処理を実行する（ステップＳ１２）。ここでは、分かち書きツールによる用語の第１抽出処理及び分かち書きツールによる用語の第２抽出処理を実行する。この分かち書きツールによる用語抽出処理は、２種類に限定されず、一方の抽出処理のみや他の抽出処理を用いてもよい。
・上記実施形態では、支援サーバ２０の制御部２１は、分かち書きツールによる用語抽出処理を実行する（ステップＳ１２）。ここで、辞書に含まれる単語の抽出状況に応じて、分かち書きツールのパラメータを調整するようにしてもよい。この場合には、分かち書きツールによって抽出された専門用語の再現率を用いて、分かち書きパラメータを調整する。ここで、再現率としては、予め定められた参考辞書に記録された抽出すべき専門用語に対して、抽出できた専門用語数の割合を用いる。

【0063】

（パラメータの調整処理）
次に．図７を用いて、パラメータの調整処理について説明する。
ここでは、支援サーバ２０の制御部２１は、再現率の算出処理を実行する（ステップＳ５１）。具体的には、制御部２１の管理部２１１は、人によって作成された参考辞書に含まれる用語と、対象文書を用いて生成した辞書に含まれる用語とを比較することにより、再現率を算出する。

【0064】

次に、支援サーバ２０の制御部２１は、再現率の評価処理を実行する（ステップＳ５２）。具体的には、制御部２１の管理部２１１は、再現率と基準値とを比較する。
再現率が基準値よりも低い場合には、支援サーバ２０の制御部２１は、パラメータの調整処理を実行する（ステップＳ５３）。具体的には、制御部２１の管理部２１１は、分かち書きツール、連接ルールのパラメータの少なくとも一つを調整する。分かち書きツールのパラメータとしては、語彙ファイルの語彙数（サイズ）がある。また、連接ルールのパラメータとしては、不要語を削除する場合の閾値（頻度）、過剰に連接した用語を削除する閾値（頻度）における閾値がある。

【0065】

・上記実施形態では、分かち書きツールによる用語抽出処理（分かち書き抽出処理）を実行する（ステップＳ１２）。ここでは、第１抽出処理及び第２抽出処理を実行する。そして、第１抽出処理及び第２抽出処理で、それぞれで不要語削除処理を行なう。これに代えて、第１抽出処理及び第２抽出処理でまとめて不要語削除処理を行なうようにしてもよい。この場合の分かち書きツールによる用語の第３抽出処理を説明する。

【0066】

（分かち書きツールによる用語の第３抽出処理）
図８を用いて、分かち書きツールによる用語の第３抽出処理を説明する。
ここでは、支援サーバ２０の制御部２１は、第１抽出処理における第１語彙ファイルの生成処理（ステップＳ６１）、第２抽出処理における第４語彙ファイルの生成処理（ステップＳ６２）を実行する。第１抽出処理では、対象文書と一般文書とを混ぜて、分かち書きツールを適用する。また、第２抽出処理では、対象文書と一般文書とに対して、それぞれ個別に分かち書きツールを適用する。

【0067】

次に、支援サーバ２０の制御部２１は、結合処理を実行する（ステップＳ６３）。具体的には、制御部２１の管理部２１１は、第１語彙ファイルに含まれる用語と、第４語彙ファイルに含まれる用語とを合わせて第５語彙ファイルを生成する。

【0068】

次に、支援サーバ２０の制御部２１は、重要度に応じた専門用語候補の抽出処理を実行する（ステップＳ６４）。具体的には、制御部２１の管理部２１１は、第５語彙ファイルに含まれる各用語の重要としてｔｆ－ｉｄｆ値を算出する。また、管理部２１１は、社会カテゴリの一般文書に含まれる単語の重要度を算出する。そして、管理部２１１は、各用語について、対象文書から算出された重要度と、一般文書から算出された重要度とを比較する。次に、管理部２１１は、対象文書から算出された重要度が、一般文書から算出された重要度よりも基準値以上で大きい専門用語候補を抽出する。この処理においても、対象文書のみに含まれる用語は、そのまま、専門用語として辞書記憶部２３に記録する。

【0069】

次に、支援サーバ２０の制御部２１は、分かち書きツールを用いた不要語削除処理を実行する（ステップＳ６５）。具体的には、制御部２１の管理部２１１は、公開文書サイト３０から取得した一般文書に対して、分かち書きツールを用いることにより、第６言語モデル（SentencePieceモデル）と第６語彙ファイル（Vocabファイル）を生成する。次に、管理部２１１は、第５語彙ファイルに含まれる用語と、第６語彙ファイルに含まれる用語とを比較する。そして、管理部２１１は、ステップＳ６４で抽出した専門用語候補であって、第６語彙ファイルに含まれない用語を専門用語として特定する。
これにより、分かち書きツールによる第１抽出処理、第２抽出処理で個別に抽出していた用語において、それぞれに含まれる不要語を削除して、専門用語を絞り込むことができる。

【0070】

・上記実施形態では、連接ルールによる用語抽出処理（ステップＳ１１）、分かち書きツールによる用語抽出処理（ステップＳ１２）を実行する。これに加えて深層学習を用いてもよい。この場合には、例えば、管理部２１１が、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）を用いる。このＢＥＲＴは、トランスフォーマーと呼ばれるニューラルネットワークを使用する。トランスフォーマーは、入力と出力の両方に関して、その周辺の文脈を考慮して単語を解釈する。これにより、ＢＥＲＴは双方向性を持ち、前の単語と後の単語の両方を考慮しながら、文章を理解する。このＢＥＲＴでは、教師文章において、専門用語をマスキングすることにより、機械学習を行なう。そして、管理部２１１は、このＢＥＲＴにより、抽出した専門用語を辞書記憶部２３に追加する。

【0071】

・上記実施形態では、連接ルールによる用語抽出処理（ステップＳ１１）、分かち書きツールによる用語抽出処理（ステップＳ１２）を用いて用語辞書を作成する。これに加えて、各処理によって抽出した専門用語を用いて、同義語辞書（シソーラス）を生成するようにしてもよい。

【0072】

（シソーラス生成処理）
次に、図９を用いて、シソーラス生成処理を説明する。
まず、支援サーバ２０の制御部２１は、ベクトル化処理を実行する（ステップＳ７１）。具体的には、制御部２１の管理部２１１は、抽出した各専門用語の分散表現を算出することにより、各用語のベクトル化を行なう。

【0073】

次に、支援サーバ２０の制御部２１は、専門用語のグルーピング処理を実行する（ステップＳ７２）。具体的には、制御部２１の管理部２１１は、専門用語のベクトルを用いて、ベクトルが所定の範囲内に含まれる専門用語を用いてグループを形成し、同義語を抽出する。

【0074】

次に、支援サーバ２０の制御部２１は、上位概念・下位概念の設定処理を実行する（ステップＳ７３）。具体的には、制御部２１の管理部２１１は、グループ化された専門用語の各ベクトルの重心ベクトルを算出する。そして、管理部２１１は、重心に近いベクトルを有する専門用語を上位概念、重心ベクトルから遠いベクトルを有する専門用語を下位概念として、階層化を行なう。

【0075】

図１０を用いて、他のシソーラス生成処理を説明する。
ここでは、支援サーバ２０の制御部２１は、グラフニューラルネットワークの生成処理を実行する（ステップＳ８１）。具体的には、制御部２１の管理部２１１は、グループ化した専門用語において、グラフニューラルネットワーク（ＧＮＮ）を生成する。このＧＮＮにより、グループに含まれる専門用語について、それぞれリンクさせたネットワークが生成される。

【0076】

次に、支援サーバ２０の制御部２１は、上位概念・下位概念の設定処理を実行する（ステップＳ８２）。具体的には、制御部２１の管理部２１１は、リンク数が多く、中心のノードにある用語は上位概念の専門用語として特定し、リンク数が少ない専門用語は下位概念として特定することにより、階層化を行なう。

【0077】

・上記実施形態では、支援サーバ２０の制御部２１は、極性付与処理を実行する（ステップＳ１３）。この極性付与時に得られた専門用語のベクトルを用いて、不要語を削除する不要語削除処理を実行するようにしてもよい。

【0078】

（不要語削除処理）
次に、図１１を用いて、不要語削除処理を説明する。
ここでは、支援サーバ２０の制御部２１は、クラスタリング処理を実行する（ステップＳ９１）。具体的には、制御部２１の管理部２１１は、極性付与時に用いた専門用語のベクトルを取得する。そして、管理部２１１は、このベクトルを用いて、クラスタリングを行なう。

【0079】

次に、支援サーバ２０の制御部２１は、クラスタリングによる不要語群の削除処理を実行する（ステップＳ９２）。具体的には、制御部２１の管理部２１１は、ベクトル空間において、専門用語からなるクラスタと、不要語を含むクラスタとを識別する。この不要語を含むクラスタは、表示装置Ｈ１３に各クラスタに含まれる用語を出力することにより、人手により特定してもよい。また、クラスタに含まれる用語数が基準値よりも少ないクラスタを不要語のクラスタとして特定してもよい。

【0080】

この場合には、図１２に示すように、ベクトル空間において、専門用語クラスタＣ１に対して不要語クラスタＣ２を削除する。
また、予め準備された参考辞書に含まれる用語が含まれないクラスタに含まれる用語を不要語として特定してもよい。
また、支援サーバ２０の制御部２１は、異常検知手法による不要語群の削除処理を実行する（ステップＳ９３）。具体的には、制御部２１の管理部２１１は、専門用語群のクラスタから、所定距離以上で離れた用語を特定して、不要語として削除する。
この場合には、図１２に示すように、ベクトル空間において、専門用語クラスタＣ１から遠い不要語Ｗ１を削除する。

【0081】

・上記実施形態では、支援サーバ２０の制御部２１は、専門用語候補のフィルタリング処理を実行する（ステップＳ２４）。他カテゴリの用語の除外処理では、特定業務を金融カテゴリとした場合、他カテゴリとして、例えば、製造業カテゴリを用いる。また、支援サーバ２０の制御部２１は、文章の取得処理を実行する（ステップＳ３１）。ここでは、公開文書サイト３０から、一般文書として社会カテゴリの文章を取得する。特定業務に対する他のカテゴリは、これらに限定されるものではない。例えば、公開文書サイト３０の各カテゴリにおける用語（不要語）群の中心と、参考辞書の専門用語群の中心との距離を計算することにより、適切な距離を実現するカテゴリを選択するようにしてもよい。

【0082】

・上記実施形態では、支援サーバ２０の制御部２１は、連接ルールによる用語抽出処理を実行する（ステップＳ１１）。ここで、支援サーバ２０が、連接ルールを作成するようにしてもよい。この場合には、抽出すべき必須用語を予め設定しておく。この場合、支援サーバ２０の制御部２１は、必須用語の形態素解析を行なうことにより、必須用語を品詞種類に分解する。そして、制御部２１は、分解された品詞種類を並べて、専門用語候補の抽出処理（ステップＳ２３）で用いる連接ルールを生成する。

【符号の説明】

【0083】

１０…ユーザ端末、２０…支援サーバ、２１…制御部、２１１…管理部、２１２…形態素分析部、２１３…分割処理部、２１４…重要度評価部、２１５…極性付与部、２２…文書記憶部、２３…辞書記憶部、３０…公開文書サーバ。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【手続補正書】

【提出日】2024-08-26

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備えた辞書作成システムであって、
前記制御部が、
前記対象文書の形態素分析結果に連接ルールを適用して第１用語群を抽出する連接ルール適用処理と、
前記対象文書から、連続して出現する文字の集まりであるサブワードを生成し、出現頻度が高いサブワードを単語として特定する分かち書き処理によって第２用語群を抽出する分かち書き抽出処理と、
前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行することを特徴とする辞書作成システム。

【請求項2】

【請求項3】

【請求項4】

【請求項5】

前記分かち書き抽出処理において、
前記対象文書と一般文書とを合わせて、前記分かち書き処理を行なうことによって第１言語モデルを生成し、
前記第１言語モデルを用いて、前記対象文書において特定した各単語の出現頻度に応じて第１重要度を算出し、
前記第１言語モデルを用いて、前記一般文書において特定した各単語の出現頻度に応じて第２重要度を算出し、
前記対象文書のみから抽出された単語と、前記対象文書と一般文書とで共通する単語であって、前記第１重要度が前記第２重要度よりも高い単語と、を用いて、前記用語辞書を作成することを特徴とする請求項１に記載の辞書作成システム。

【請求項6】

前記分かち書き抽出処理において、
前記対象文書を用いた前記分かち書き処理により、前記対象文書に含まれる各単語の出現頻度に応じて、前記対象文書から抽出した単語からなる第２語彙ファイルを生成し、
一般文書を用いた前記分かち書き処理により、前記一般文書に含まれる各単語の出現頻度に応じて、前記一般文書から抽出した単語からなる第３語彙ファイルを生成し、
前記第２語彙ファイルと前記第３語彙ファイルとを比較して、前記第２語彙ファイルに含まれる単語であって、前記第３語彙ファイルに含まれない単語を用いて、前記用語辞書を作成することを特徴とする請求項１に記載の辞書作成システム。

【請求項7】

対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備えた辞書作成システムを用いて、用語辞書を作成する方法であって、
前記制御部が、
前記対象文書の形態素分析結果に連接ルールを適用して第１用語群を抽出する連接ルール適用処理と、
前記対象文書から、連続して出現する文字の集まりであるサブワードを生成し、出現頻度が高いサブワードを単語として特定する分かち書き処理によって第２用語群を抽出する分かち書き抽出処理と、
前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行することを特徴とする辞書作成方法。

【請求項8】

対象文書を記録した文書記憶部と、前記対象文書から専門用語を抽出する制御部と、を備えた辞書作成システムを用いて、用語辞書を作成するためのプログラムであって、
前記制御部を、
前記対象文書の形態素分析結果に連接ルールを適用して第１用語群を抽出する連接ルール適用処理と、
前記対象文書から、連続して出現する文字の集まりであるサブワードを生成し、出現頻度が高いサブワードを単語として特定する分かち書き処理によって第２用語群を抽出する分かち書き抽出処理と、
前記連接ルール適用処理及び前記分かち書き抽出処理において抽出した用語に基づいて用語辞書を作成する処理と、を実行する手段として機能させるための辞書作成プログラム。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版