特許7557770 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人帯広畜産大学の特許一覧

特許7557770専門用語抽出装置、専門用語抽出方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-19

(45)【発行日】2024-09-30

(54)【発明の名称】専門用語抽出装置、専門用語抽出方法及びプログラム

(51)【国際特許分類】

G06F 40/279 20200101AFI20240920BHJP

G06F 40/216 20200101ALI20240920BHJP

【ＦＩ】

G06F40/279

G06F40/216

【請求項の数】 6

(21)【出願番号】P 2020186260

(22)【出願日】2020-11-09

(65)【公開番号】P2021192212

(43)【公開日】2021-12-16

【審査請求日】2023-09-21

(31)【優先権主張番号】P 2020098236

(32)【優先日】2020-06-05

(33)【優先権主張国・地域又は機関】JP

【新規性喪失の例外の表示】特許法第３０条第２項適用発行者名：一般社団法人日本医療情報学会、刊行物名：第２３回日本医療情報学会春季学術大会シンポジウム２０１９ｉｎ熊本抄録集、発行日：２０１９年６月６日集会名：第２３回日本医療情報学会春季学術大会シンポジウム２０１９ｉｎ熊本、開催日（発表日）：２０１９年６月８日

(73)【特許権者】

【識別番号】504300088

【氏名又は名称】国立大学法人北海道国立大学機構

(74)【代理人】

【識別番号】100095407

【弁理士】

【氏名又は名称】木村満

(74)【代理人】

【識別番号】100132883

【弁理士】

【氏名又は名称】森川泰司

(74)【代理人】

【識別番号】100202913

【弁理士】

【氏名又は名称】武山敦史

(74)【代理人】

【識別番号】100222922

【弁理士】

【氏名又は名称】和田朋子

(72)【発明者】

【氏名】プタシンスキミハウエドムンド

(72)【発明者】

【氏名】谷川原綾子

【審査官】成瀬博之

(56)【参考文献】

【文献】国際公開第２００７／０１０８３６（ＷＯ，Ａ１）

【文献】池野篤司他3名，Web文書集合からの専門用語獲得，情報処理学会論文誌，社団法人情報処理学会，2006年06月15日，第47巻第6号，1717-1727頁

【文献】相澤彰子他4名，土木関連用語辞典の見出し語の分析と検索システムにおける活用に関する考察，情報処理学会研究報告，社団法人情報処理学会，2005年09月29日，Vol.2005,No.94，131-138頁，2005-FI-80,2005-NL-169

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／００－４０／５８

(57)【特許請求の範囲】

【請求項1】

文書のテキストデータを取得するテキストデータ取得部と、
前記テキストデータ取得部により取得されたテキストデータからＮグラムの文節を抽出するＮグラム抽出部と、
前記Ｎグラム抽出部で生成されたＮグラムの文節内で助詞の前にある部分全体を専門用語の候補語として抽出し、抽出された候補語の前記テキストデータにおける出現頻度をカウントする候補語判別部と、
前記候補語判別部でカウントされた候補語の出現頻度と当該候補語が抽出されたＮグラムの長さとに基づいて当該候補語の重みを算出し、算出された重みが閾値以上である候補語を専門用語として判別する専門用語判別部と、
前記専門用語判別部で専門用語として判別された候補語を記憶部に登録する専門用語登録部と、
を備え、
前記専門用語判別部により算出される候補語の重みは、当該候補語の出現頻度が多くなるか当該候補語が抽出されたＮグラムの長さが長いほど大きくなる、
専門用語抽出装置。

【請求項2】

前記候補語判別部は、Ｎグラムの文節内で助詞の前にある部分全体のうち、ひらがな、カタカナ及び漢字の少なくとも一つから構成されているものを候補語として抽出する、
請求項１に記載の専門用語抽出装置。

【請求項3】

前記Ｎグラム抽出部は、抽出されたＮグラムの文節から句読点及び記号を削除するクリーニングを実行し、
前記候補語判別部は、前記Ｎグラム抽出部でクリーニングが実行されたＮグラムの文節から候補語を抽出する、
請求項１又は２に記載の専門用語抽出装置。

【請求項4】

前記専門用語判別部は、１文字の候補語、ひらがなからなる候補語及び一般用語に該当する候補語を削除する、
請求項１から３のいずれか１項に記載の専門用語抽出装置。

【請求項5】

テキストデータ取得部が、文書のテキストデータを取得する工程と、
Ｎグラム抽出部が、前記テキストデータ取得部により取得されたテキストデータからＮグラムの文節を抽出する工程と、
候補語判別部が、前記Ｎグラム抽出部で生成されたＮグラムの文節内で助詞の前にある部分全体を専門用語の候補語として抽出し、抽出された候補語の前記テキストデータにおける出現頻度をカウントする工程と、
専門用語判別部が、前記候補語判別部でカウントされた候補語の出現頻度と当該候補語が抽出されたＮグラムの長さとに基づいて当該候補語の重みを算出し、算出された重みが閾値以上である候補語を専門用語として判別する工程と、
専門用語登録部が、前記専門用語判別部で専門用語として判別された候補語を記憶部に登録する工程と、
を含み、
前記専門用語判別部により算出される候補語の重みは、当該候補語の出現頻度が多くなるか当該候補語が抽出されたＮグラムの長さが長いほど大きくなる、
専門用語抽出方法。

【請求項6】

コンピュータを、
文書のテキストデータを取得するテキストデータ取得手段、
前記テキストデータ取得手段により取得されたテキストデータからＮグラムの文節を抽出するＮグラム抽出手段、
前記Ｎグラム抽出手段で生成されたＮグラムの文節内で助詞の前にある部分全体を専門用語の候補語として抽出し、抽出された候補語の前記テキストデータにおける出現頻度をカウントする候補語判別手段、
前記候補語判別手段でカウントされた候補語の出現頻度と当該候補語が抽出されたＮグラムの長さとに基づいて当該候補語の重みを算出し、算出された重みが閾値以上である候補語を専門用語として判別する専門用語判別手段、
前記専門用語判別手段で専門用語として判別された候補語を記憶部に登録する専門用語登録手段、
として機能させるためのプログラムであって、
前記専門用語判別手段により算出される候補語の重みは、当該候補語の出現頻度が多くなるか当該候補語が抽出されたＮグラムの長さが長いほど大きくなる、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、専門用語抽出装置、専門用語抽出方法及びプログラムに関する。

【背景技術】

【0002】

学術的なコミュニケーションの円滑化や自然言語処理の精度向上を図るため、各専門分野において専門用語の整備が行われている。専門用語の整備は手作業で行われることが多く、これには多くの時間及び人的資源が必要である。そこで、専門用語を効率よく抽出する手法の開発が進められている。例えば、特許文献１には、テキストデータを構成している文字列の品詞を解析し、解析結果に基づいて名詞又は動詞を抽出する用語集管理装置が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１６－６６２３３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１の用語集管理装置では、テキストデータから形態素解析により抽出した文字列の品詞を解析し、名詞又は動詞と判別された文字列を抽出している。特許文献１の用語集管理装置では、意味を有する最小の言語単位である形態素に基づいて用語を探索するため、用語の一部が未知語である場合、新規用語が抽出されない可能性がある。

【0005】

本発明は、このような背景に基づいてなされたものであり、テキストデータから専門用語を抽出する精度を向上させた専門用語抽出装置、専門用語抽出方法及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するために、本発明の第１の観点に係る専門用語抽出装置は、
文書のテキストデータを取得するテキストデータ取得部と、
前記テキストデータ取得部により取得されたテキストデータからＮグラムの文節を抽出するＮグラム抽出部と、
前記Ｎグラム抽出部で生成されたＮグラムの文節内で助詞の前にある部分全体を専門用語の候補語として抽出し、抽出された候補語の前記テキストデータにおける出現頻度をカウントする候補語判別部と、
前記候補語判別部でカウントされた候補語の出現頻度と当該候補語が抽出されたＮグラムの長さとに基づいて当該候補語の重みを算出し、算出された重みが閾値以上である候補語を専門用語として判別する専門用語判別部と、
前記専門用語判別部で専門用語として判別された候補語を記憶部に登録する専門用語登録部と、
を備え、
前記専門用語判別部により算出される候補語の重みは、当該候補語の出現頻度が多くなるか当該候補語が抽出されたＮグラムの長さが長いほど大きくなる。

【0007】

前記候補語判別部は、Ｎグラムの文節内で助詞の前にある部分全体のうち、ひらがな、カタカナ及び漢字の少なくとも一つから構成されているものを候補語として抽出してもよい。

【0008】

前記Ｎグラム抽出部は、抽出されたＮグラムの文節から句読点及び記号を削除するクリーニングを実行し、
前記候補語判別部は、前記Ｎグラム抽出部でクリーニングが実行されたＮグラムの文節から候補語を抽出してもよい。

【0010】

前記専門用語判別部は、１文字の候補語、ひらがなからなる候補語及び一般用語に該当する候補語を削除してもよい。

【0011】

上記目的を達成するために、本発明の第２の観点に係る専門用語抽出方法は、
テキストデータ取得部が、文書のテキストデータを取得する工程と、
Ｎグラム抽出部が、前記テキストデータ取得部により取得されたテキストデータからＮグラムの文節を抽出する工程と、
候補語判別部が、前記Ｎグラム抽出部で生成されたＮグラムの文節内で助詞の前にある部分全体を専門用語の候補語として抽出し、抽出された候補語の前記テキストデータにおける出現頻度をカウントする工程と、
専門用語判別部が、前記候補語判別部でカウントされた候補語の出現頻度と当該候補語が抽出されたＮグラムの長さとに基づいて当該候補語の重みを算出し、算出された重みが閾値以上である候補語を専門用語として判別する工程と、
専門用語登録部が、前記専門用語判別部で専門用語として判別された候補語を記憶部に登録する工程と、
を含み、
前記専門用語判別部により算出される候補語の重みは、当該候補語の出現頻度が多くなるか当該候補語が抽出されたＮグラムの長さが長いほど大きくなる。

【0012】

上記目的を達成するために、本発明の第３の観点に係るプログラムは、
コンピュータを、
文書のテキストデータを取得するテキストデータ取得手段、
前記テキストデータ取得手段により取得されたテキストデータからＮグラムの文節を抽出するＮグラム抽出手段、
前記Ｎグラム抽出手段で生成されたＮグラムの文節内で助詞の前にある部分全体を専門用語の候補語として抽出し、抽出された候補語の前記テキストデータにおける出現頻度をカウントする候補語判別手段、
前記候補語判別手段でカウントされた候補語の出現頻度と当該候補語が抽出されたＮグラムの長さとに基づいて当該候補語の重みを算出し、算出された重みが閾値以上である候補語を専門用語として判別する専門用語判別手段、
前記専門用語判別手段で専門用語として判別された候補語を記憶部に登録する専門用語登録手段、
として機能させるためのプログラムであって、
前記専門用語判別手段により算出される候補語の重みは、当該候補語の出現頻度が多くなるか当該候補語が抽出されたＮグラムの長さが長いほど大きくなる。

【発明の効果】

【0013】

本発明によれば、テキストデータから専門用語を抽出する精度を向上させた専門用語抽出装置、専門用語抽出方法及びプログラムを提供できる。

【図面の簡単な説明】

【0014】

【図1】本発明の実施の形態に係る専門用語抽出装置の構成を示す図である。

【図2】（ａ）は、テキストデータ記憶部のデータテーブルの一例を示す図であり、（ｂ）は、専門用語記憶部のデータテーブルの一例を示す図である。

【図3】本発明の実施の形態に係る専門用語抽出処理の流れを示すフローチャートである。

【図4】本発明の実施の形態に係る候補語判別処理の流れを示すフローチャートである。

【図5】本発明の実施の形態に係る専門用語判別処理の流れを示すフローチャートである。

【発明を実施するための形態】

【0015】

以下、本発明の実施の形態に係る専門用語抽出装置、専門用語抽出方法及びプログラムを、図面を参照しながら詳細に説明する。各図面においては、同一又は同等の部分に同一の符号を付す。

【0016】

専門用語抽出装置１００は、特定の専門分野を扱っている文書のテキストデータから当該専門分野に属する専門用語を網羅的に抽出する装置である。専門用語抽出装置１００は、例えば、汎用コンピュータである。

【0017】

図１に示すように、専門用語抽出装置１００は、操作部１１０と、表示部１２０と、通信部１３０と、記憶部１４０と、制御部１５０と、を備える。専門用語抽出装置１００の各部は、内部バス（図示せず）等を介して相互に接続されている。

【0018】

操作部１１０は、ユーザの指示を受け付け、受け付けた操作に対応する操作信号を制御部１５０に供給する。操作部１１０は、例えば、キーボード、マウス等を備え、テキストデータを記憶部１４０に記憶させる操作、記憶部１４０に記憶されたテキストデータから専門用語を抽出する処理を実行させる操作等を受け付ける。

【0019】

表示部１２０は、制御部１５０から供給される画像データに基づいて、ユーザに向けて各種の画像を表示する。表示部１２０は、例えば、液晶パネル、有機ＥＬ（Electro Luminescence）パネル等を備え、文書のテキストデータ、テキストデータから抽出された専門用語のリスト等を表示する。表示部１２０は、専門用語に関する情報を出力する出力部の一例である。

【0020】

通信部１３０は、インターネット等の通信ネットワークに接続することが可能なインターフェースである。

【0021】

記憶部１４０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ハードディスクドライブ等を備える。記憶部１４０は、制御部１５０に実行されるプログラムや各種のデータを記憶する。また、記憶部１４０は、制御部１５０が処理を実行するためのワークメモリとして機能する。さらに、記憶部１４０は、テキストデータ記憶部１４１と、辞書１４２と、専門用語記憶部１４３と、を備える。

【0022】

図２（ａ）に示すように、テキストデータ記憶部１４１は、文書のテキストデータ（テキストデータを格納したテキストファイル）を文書のタイトルに対応付けて記憶する。テキストデータは、一つの文書のテキストデータであってもよく、同一の専門分野に属する複数の文書のテキストデータを一つに統合したものであってもよい。

【0023】

辞書１４２は、一般的な日本語の用語である一般用語を記憶する。一般用語は、専門分野に関わらず広く一般に用いられている用語（単語を含む）である。辞書１４２は、インターネット等のネットワーク上で提供されている一般的な用語が収録された辞書等に基づいて生成すればよい。

【0024】

図２（ｂ）に示すように、専門用語記憶部１４３は、文書のテキストデータから抽出された専門用語を文書のタイトルに対応付けて記憶する。

【0025】

図１に戻り、制御部１５０は、ＣＰＵ（Central Processing Unit）等を備え、専門用語抽出装置１００の各部の制御を実行する。制御部１５０は、記憶部１４０に記憶されているプログラムを実行することにより、図３～図５に示す専門用語を抽出する一連の処理を実行する。

【0026】

制御部１５０は、機能的には、テキストデータ取得部１５１と、チャンキング部１５２と、Ｎグラム抽出部１５３と、候補語判別部１５４と、専門用語判別部１５５と、専門用語登録部１５６と、を備える。

【0027】

テキストデータ取得部１５１は、テキストデータ記憶部１４１又は外部の機器から文書のテキストデータを取得する。

【0028】

チャンキング部１５２は、テキストデータ取得部１５１で取得されたテキストデータに含まれる文を文節に分割するチャンキングを実行する。

【0029】

Ｎグラム抽出部１５３は、チャンキングを実行することで得られた文節からＮグラムのチャンク（文節）を抽出する。Ｎグラムは、任意の文字列を連続したＮ個の文字、単語、チャンク等で分割する手法であるが、ここではＮグラムのチャンクを抽出する。Ｎは任意の自然数であるが、例えば、１グラムから７グラムまでの全てのＮグラムのチャンクを抽出すればよい。例えば、１グラムでは、文から１つずつ文節を取り出せばよく、２グラムでは、文から基準となる文節を１つずつずらしながら２つの連続する文節を取り出せばよい。

【0030】

また、Ｎグラム抽出部１５３は、Ｎグラムのチャンクから句読点及び記号を削除するクリーニングを実行する。Ｎグラムのチャンクから除去される句読点は、例えば、句点、読点、ピリオド、コロンを含む。記号は、例えば、括弧、角括弧、隅付き括弧を含む。

【0031】

候補語判別部１５４は、句読点及び記号を削除されたＮグラムのチャンクの中から専門用語の候補語を判別し、判別された候補語の出現頻度をカウントする。具体的には、候補語判別部１５４は、Ｎグラムのチャンクにおいて助詞の前に現れたフレーズを抽出することで体言を認識する。体言は、語形変化をしない語彙であり、日本語では名詞、代名詞及び数詞が該当する。

【0032】

体言の認識に用いる助詞は、予め実験により選ばれた体言に付きやすい助詞である。具体的には、「において」、「によって」、「までに」、「なんて」、「ばかり」、「として」、「だって」、「ために」、「ぐらい」、「くらい」、「など」、「こそ」、「だけ」、「のみ」、「しか」、「さえ」、「でも」、「とも」、「すら」、「やら」、「より」、「なり」、「だの」、「にて」、「まで」、「から」、「や」、「の」、「を」、「で」、「に」、「と」、「も」、「が」、「へ」、「よ」、「は」である。

【0033】

一例として「骨折，疾病が原因とする骨変化像を観察する」との文を文節に分割すると、「骨折，疾病が」、「原因と」、「する」、「骨変化像を」、「観察する」との各文節に分割できる。「骨変化像を」の文節には、助詞「を」が含まれているため、助詞「を」の前にあるフレーズ「骨変化像」が体言であると認識できる。

【0034】

また、候補語判別部１５４は、体言と認識されたフレーズからひらがな、カタカナ及び漢字の少なくとも一つから構成されたフレーズを抽出する概念実証を実行することで、体言と認識されたフレーズから専門用語の候補語を判別する。

【0035】

専門用語判別部１５５は、候補語判別部１５４で判別された専門用語の候補語から専門用語を判別する。具体的には、専門用語判別部１５５は、候補語判別部１５４で判別された専門用語の候補語から外形上専門用語として不適切な候補語を削除する。外形上不適切な候補語は、例えば、１文字の候補語、ひらがなのみからなる候補語である。

【0036】

また、専門用語判別部１５５は、候補語の出現頻度及び候補語の信頼性に基づいて候補語の重みを算出し、算出された重みが閾値未満である場合に当該重みに対応する候補語を削除する。言い換えると、算出された重みが閾値以上である場合に当該重みに対応する候補語を専門用語の候補として残す。候補語の重みＷは、親頻度をｅ、信頼度調整をＲとすると、以下の式（１）で表される。
Ｗ＝ｅ×Ｒ …（１）

【0037】

ただし、親頻度ｅは、テキスト中に候補語が出現する頻度であり、信頼度調整Ｒは、候補語の信頼性を示す指標であり、具体的には、候補語に対応するＮグラムの長さである。例えば、１グラムであれば信頼度調整Ｒは１であり、２グラムであれば信頼度調整Ｒは２である。様々な閾値を用いて実験を繰り返した結果、重み≧２の条件を満たす候補語を専門用語と評価し得ることが判明した。

【0038】

候補語の調整のために候補語の重みを算出するのは、Ｎグラム（Ｎ≧２）において候補語が用いられたコンテキストが長いほど、言い換えるとＮグラムのＮの値が大きくなるほど、ある文節が他の文節と一緒に頻繁に出現（共起）しやすくなり、ある文節に含まれる候補語が誤って抽出された可能性が低くなるためである。

【0039】

一例として、「骨折，疾病が原因とする骨変化像を観察する」との文に加えて、文書内の他の文にも「原因と」や「骨変化像を」というチャンクが存在していれば、これらのチャンクの出現頻度が増加する。また、「骨変化像を観察する」（２グラム）や「原因とする骨変化像を」（３グラム）等のＮグラムが複数存在していれば、「原因」や「骨変化像」とのフレーズがより広い文脈で使われることとなり、その信頼度が増加する。上記の例では、「原因と」と「骨変化像を」とが候補語抽出の対象となり、その中から「原因」及び「骨変化像」とのフレーズが候補語として抽出される。

【0040】

加えて、専門用語判別部１５５は、辞書１４２を参照して、候補語から一般用語に該当する候補語を削除する。上記の一例では、「原因」「骨変化像」が体言認識を用いて候補語として抽出されており、「原因」は辞書を参照することで一般用語としてフィルタリングされるため、最終的に「骨変化像」を専門用語であると判別する。

【0041】

専門用語登録部１５６は、専門用語判別部１５５から出力された候補語を専門用語として専門用語記憶部１４３に記憶させる。
以上が、専門用語抽出装置１００の構成である。

【0042】

（専門用語抽出処理）
次に、図３のフローチャートを参照して、専門用語抽出装置１００が実行する専門用語抽出処理の流れを説明する。専門用語抽出処理は、文書のテキストデータから専門用語を抽出する処理である。

【0043】

ユーザは、専門用語抽出装置１００に専門用語抽出処理を実行させる前に、教科書、専門書、論文集等の文書の画像を読み取り、コンピュータ上で当該画像に対してＯＣＲ（Optical Character Recognition）を実行することで、文書のテキストデータを生成する。ＯＣＲは、スキャナ等で読み取られた文書の画像から文字列を認識してテキストデータに変換するソフトウェアである。文書が電子文書であれば、テキストデータが既に生成されているため、上記の手順は不要である。

【0044】

ユーザは、同一の分野に属する複数の文書から生成したテキストデータを統合して一つのテキストファイルを生成してもよい。複数の文書から生成されたテキストデータを一つに統合するのは、同一の専門分野に属する複数の文書に出現する専門用語の出現頻度を把握するためである。例えば、ある専門用語が各文書に１度ずつ出現するならば、当該専門分野において高い頻度で出現する専門用語と判断できる。ユーザは、上記の手順で統合されたテキストデータを取得し、テキストデータ記憶部１４１に記憶させる。その後、ユーザが操作部１１０を操作して開始を指示すると、専門用語抽出装置１００は、専門用語を抽出する一連の処理を開始する。

【0045】

まず、テキストデータ取得部１５１は、テキストデータ記憶部１４１からテキストデータを取得し（ステップＳ１）、チャンキング部１５２は、取得されたテキストデータに含まれる文を文節に分割するチャンキングを実行する（ステップＳ２）。文節分割には、公知の手法を用いることができる。

【0046】

次に、Ｎグラム抽出部１５３は、ステップＳ２の処理でチャンキングされた文節からＮグラムのチャンクを抽出する（ステップＳ３）。Ｎグラム抽出部１５３は、例えば、１グラム～７グラムの全てのＮグラムのチャンクを抽出する。

【0047】

次に、Ｎグラム抽出部１５３は、ステップＳ３の処理で抽出されたＮグラムのチャンク中の句読点及び記号を除去するクリーニングを実行する（ステップＳ４）。

【0048】

次に、候補語判別部１５４は、ステップＳ４の処理でクリーニングが実行されたＮグラムのチャンクの中から候補語を判別する候補語判別処理を実行する（ステップＳ５）。以下、図４のフローチャートを参照して、候補語判別部１５４が実行するステップＳ５の候補語判別処理の流れを説明する。

【0049】

まず、候補語判別部１５４は、クリーニングされたＮグラムのチャンクから体言を認識する（ステップＳ５１）。Ｎグラムのチャンクから助詞の前に現れたフレーズを抽出することで、Ｎグラムのチャンクから体言を認識できる。

【0050】

次に、候補語判別部１５４は、ステップＳ５１で認識された体言から、ひらがな、カタカナ及び漢字の少なくとも一つの成分から構成される体言を抽出する概念実証を実行し、専門用語の候補語を抽出する（ステップＳ５２）。

【0051】

次に、候補語判別部１５４は、ステップＳ５２で抽出された候補語がテキストデータ中に出現する頻度をカウントし（ステップＳ５３）、処理をリターンする。
以上が、候補語判別処理の流れである。

【0052】

図３に戻り、専門用語判別部１５５は、ステップＳ５の候補語判別処理で判別された候補語から専門用語を判別する専門用語判別処理を実行する（ステップＳ６）。以下、図５のフローチャートを参照して、専門用語判別部１５５が実行するステップＳ６の専門用語判別処理の流れを説明する。

【0053】

まず、専門用語判別部１５５は、ステップＳ５の候補語判別処理で判別された候補語から外形上不適切な候補語、例えば、１文字の候補語、ひらがなのみからなる候補語を削除する（ステップＳ６１）。

【0054】

次に、専門用語判別部１５５は、ステップＳ６１で抽出された候補語の重みを算出し、当該重みが閾値未満である候補語を削除する（ステップＳ６２）。候補語の重みは、上記の式（１）に基づいて算出され、閾値は、例えば２に設定すればよい。

【0055】

次に、専門用語判別部１５５は、ステップＳ６２で残された候補語から、辞書１４２に記憶された一般用語と一致する候補語を削除し（ステップＳ６３）、処理をリターンする。
以上が、専門用語判別処理の流れである。

【0056】

再び図３に戻り、専門用語登録部１５６は、ステップＳ６の処理が終了した後に残された候補語を専門用語とみなして専門用語記憶部１４３に記憶させ（ステップＳ７）、処理を終了する。
以上が、専門用語抽出処理の流れである。

【0057】

ユーザは、専門用語抽出処理により抽出された専門用語を専門用語記憶部１４３から読み出して評価してもよい。具体的には、専門用語記憶部１４３に記憶された専門用語のリストを表示部１２０に表示させ、専門用語を一語一語確認すればよい。専門用語と評価できない用語については、操作部１１０を操作して専門用語記憶部１４３から削除すればよい。

【0058】

以上説明したように、実施の形態に係る専門用語抽出装置１００は、Ｎグラムのチャンクから体言を認識することで専門用語の候補語を抽出しており、専門分野に関する用語を記憶した辞書が不要である。このため、専門分野に関する文書さえ入手できれば、専門分野に関する事前知識を必要とせずに任意の専門分野に関する専門用語を抽出できる。また、実施の形態に係る専門用語抽出装置１００は、形態素解析を用いておらず、複合語が既に含まれているＮグラムのチャンクから体言を抽出しているため、形態素から複合語を合成する必要がなく、網羅的に専門用語を抽出できる。

【0059】

また、実施の形態に係る専門用語抽出装置１００は、候補語の出現頻度と当該候補語が抽出されたＮグラムの長さとに基づいて、当該候補語が専門用語に該当するかどうかを判別する。候補語の出現頻度のみならず、当該候補語が抽出されたＮグラムの長さ（信頼性）を考慮しているため、体言として認識された候補語が専門用語であるかどうかを精度よく判別できる。

【0060】

本発明は上記実施の形態に限られず、以下に述べる変形も可能である。

【0061】

（変形例）
上記実施の形態では、専門分野に関する専門用語を収集し、専門用語集を整備していたが、本発明はこれに限られない。例えば、上記の手法を専門分野に関する専門用語集を更新する際に用いてもよい。また、上記の手法を文書のコレクションが共通する専門分野に属するかどうかを確認するために用いてもよい。

【0062】

上記実施の形態では、チャンキングにより得られた文の文節からＮグラムのチャンクを抽出していたが、本発明はこれに限られない。例えば、テキストデータから任意の単位でＮグラムのチャンクを抽出してもよい。

【0063】

上記実施の形態では、体言として認識されたフレーズに対して概念実証を実行していたが、本発明はこれに限られない。アルファベットや数字が頻繁に用いられない専門分野では、体言として認識されたフレーズに対して概念実証を実行しなくてもよい。

【0064】

上記実施の形態では、１文字の候補語、ひらがなのみからなる候補語、一般用語に該当する候補語を削除していたが、本発明はこれに限られない。例えば、専門分野によっては、これらの候補語をそのまま専門用語に含めてもよい。

【0065】

上記実施の形態では、専門用語判別処理（ステップＳ６）において、１文字の候補語及びひらがなのみからなる候補語を削除する工程、重みが閾値未満の候補語を削除する工程、一般用語に該当する候補語を削除する工程の順で処理を実行していたが、本発明はこれに限られない。例えば、１文字の候補語及びひらがなのみからなる候補語を削除する工程を実行した後に、一般用語に該当する候補語を削除する工程を実行し、その後、重みが閾値未満の候補語を削除する工程を実行してもよい。

【0066】

上記実施の形態では、専門用語として判別された候補語を専門用語記憶部１４３に登録していたが、本発明はこれに限られない。専門用語として判別された候補語に関する情報を外部のサーバやコンピュータ等に送信してもよい。

【0067】

上記実施の形態では、各種データは専門用語抽出装置１００の記憶部１４０に記憶されていたが、本発明はこれに限定されない。例えば、各種データは、その全部又は一部が通信ネットワークを介して外部のサーバやコンピュータ等に記憶されていてもよい。

【0068】

上記実施の形態では、通信ネットワークとしてインターネット等を用いていたが、本発明はこれに限られない。例えば、通信ネットワークは、ＬＡＮ（Local Area Network）や専用線等を用いて実現してもよい。

【0069】

上記実施の形態では、専門用語抽出装置１００は、それぞれ記憶部１４０に記憶されたプログラムに基づいて動作していたが、本発明はこれに限定されない。例えば、プログラムにより実現された機能的な構成をハードウェアにより実現してもよい。

【0070】

上記実施の形態では、専門用語抽出装置１００は、例えば、汎用コンピュータであったが、本発明はこれに限られない。例えば、専門用語抽出装置１００は、専用のシステムで実現してもよく、クラウド上に設けられたコンピュータであってもよい。

【0071】

上記実施の形態では、専門用語抽出装置１００が実行する処理は、上述の物理的な構成を備える装置が記憶部１４０に記憶されたプログラムを実行することによって実現されていたが、本発明は、プログラムとして実現されてもよく、そのプログラムが記録された記憶媒体として実現されてもよい。

【0072】

また、上述の処理動作を実行させるためのプログラムを、フレキシブルディスク、ＣＤ－ＲＯＭ（Compact Disk Read-Only Memory）、ＤＶＤ（Digital Versatile Disk）、ＭＯ（Magneto-Optical Disk）等のコンピュータにより読み取り可能な記録媒体に格納して配布し、そのプログラムをコンピュータにインストールすることにより、上述の処理動作を実行する装置を構成してもよい。

【0073】

上記実施の形態は例示であり、本発明はこれらに限定されるものではなく、特許請求の範囲に記載した発明の趣旨を逸脱しない範囲でさまざまな実施の形態が可能である。各実施の形態や変形例で記載した構成要素は自由に組み合わせることが可能である。また、特許請求の範囲に記載した発明と均等な発明も本発明に含まれる。

【0074】

以下、実施例を挙げて本発明を具体的に説明する。ただし、本発明はこれらの実施例に限定されるものではない。

【0075】

（実施例）
実施例では、放射線技術学シリーズ（公益社団法人日本放射線技術学会監修）全１５冊から放射線技術関連の専門用語の抽出を行った。放射線技術学シリーズの教科書の全ページをスキャンし、ＯＣＲを用いてテキストデータを生成し、テキストデータを一つのファイルに統合した。次に、Ｃｏｂｏｃｈａ（https://taku910.github.io/cabocha）を用いて文を文節に分割した。次に、文節からＮグラム（Ｎ＝１～７）のチャンクを抽出し、抽出されたＮグラムのチャンクから句読点や記号を削除した。

【0076】

次に、Ｎグラムのチャンクにおいて助詞の前に現れたフレーズを体言と認識し、その後、体言と認識されたフレーズからひらがな、カタカナ及び漢字の少なくとも一つの成分からなるフレーズを抽出することで、専門用語の候補語を抽出した。次に、抽出された候補語から１文字の候補語、ひらがなのみの候補語、出現頻度が１回の候補語、一般用語を全て削除し、残された候補語を専門用語とみなした。一般用語は、みんなの日本語の単語、Ｗｉｋｔｉｏｎａｒｙ：日本語の基本語彙１０００、日本語能力試験ＪＬＰＴ（Japanese-Language Proficiency Test）Ｎ１～Ｎ５単語集に掲載されたものとした。

【0077】

次に、本手法で抽出された専門用語の妥当性を評価した。抽出された専門用語は１１３５語であったが、そのうち放射線技術学用語集（ＪＳＲＴ（Japanese Society of Radiological Technology）用語集）に含まれていた専門用語は３０９語（２７％）であった。ＪＳＲＴ用語集は、公益社団法人日本放射線技術学会が作成した用語集である。抽出された専門用語のうちＪＳＲＴ用語集に含まれていた用語は、例えば、アレイコイル、イオン性造影剤、安定同位体、吸収線量であった。放射線技術学シリーズのテキストに実際に存在するＪＳＲＴ用語集に掲載された専門用語は７９２語であるため、本手法による専門用語の抽出精度は３０９／７９２≒３９％であった。他方、ＪＳＲＴ用語集に含まれていなかった専門用語は８２６語（７３％）であった。これらの用語については、専門家３名に専門用語と判断できる用語の選定を依頼した。専門家は臨床経験５年以上の診療放射線技師である。

【0078】

その結果、専門家３名が選定した用語は４１９語（５０．７３％）あり、専門家２名以上が選定した用語が７７２語（９３．４６％）であった。具体例を挙げると、専門家３名が選定した用語は、例えば、「傾斜磁場」、「減弱」、「スライス厚」、「照射線量」、「断面積」、「遺伝的影響」等であった。専門家１、２名が選定した用語は、例えば、「心臓」、「ガイドライン」、「個人情報」、「診療録」、「頭部外傷」、「死亡率」等であった。専門家が選定しなかった用語は、例えば、「距離」、「温度」、「シフト」、「数量」、「異物」、「告示」、「アインシュタイン」、「拡大表示」等であった。

【0079】

専門家２名以上が専門用語であると選定した用語を専門用語とみなすと、ＪＳＲＴ用語集に含まれていなかった専門用語は全部で７７２語（９３．４６％）であった。以上から、本手法は、既存の用語集に掲載されていない専門用語も網羅的に抽出でき、専門分野の用語集の整備及び更新に有用であることが確認できた。

【符号の説明】

【0080】

１００専門用語抽出装置
１１０操作部
１２０表示部
１３０通信部
１４０記憶部
１４１テキストデータ記憶部
１４２辞書
１４３専門用語記憶部
１５０制御部
１５１テキストデータ取得部
１５２チャンキング部
１５３Ｎグラム抽出部
１５４候補語判別部
１５５専門用語判別部
１５６専門用語登録部

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版